Présentation personnelle. La reconnaissance vocale. Réalisé par Cyril Friche - TR6. 4 juillet 2002. Made with LATEX

Documents pareils

Accès instantané aux mots et aux locutions Le dictionnaire électronique offre une traduction rapide d'un mot ou d'une locution

La Vérité sur la Reconnaissance Vocale.

Brochure produit interactive ::

Technologies, innovations et médias

The Grid 2: Manuel d utilisation

Roger pour la maison et la vie sociale. Combler le manque de compréhension

N SIMON Anne-Catherine

Présentation de notre solution de formation en ligne

Dragon Naturally Speaking 13

Les tablettes. Présentation tablettes Descriptif Fournisseurs Caractéristiques Comparatifs Conseils Perspectives Démonstration

Dispositif e-learning déployé sur les postes de travail

Visitez notre page Internet credit-suisse.com/accessibilite ou contactez-nous par téléphone au

1 /// 9 Les médias solutions

DESCRIPTEURS NIVEAU A2 du Cadre européen commun de référence pour les langues

Les tablettes numériques en EPS. Repères. Les différents types de tablettes et leurs caractéristiques.

LoReNa : pour dynamiser votre Relation Client (CRM)

Bienvenue à la formation

Ouvrez un compte Hotmail pour communiquer

CT-DECT GateCom 3W avec Fonction CT-ASR CT-DECT Bluetooth / tablette tactile et téléphones GSM Geschäftsbericht 09/10 I 1

L informatique pour débutants

Qu est-ce qu un Ordinateur

Le Sphinx Millenium Modes opératoires Préparer, administrer, Dépouiller les enquêtes

LES OUTILS DE LA MOBILITE

LA VIDÉO HAUTE DEFINITION, PARTOUT, POUR TOUS

majuscu lettres accent voyelles paragraphe L orthographe verbe >>>, mémoire préfixe et son enseignement singulier usage écrire temps copier mot

FICHE PRODUIT 360 SPEECHMAGIC SDK

«Bienvenue en Europe» : fiche Apprenant Thème : technologies, innovations et médias

WINDOWS 8. Windows 8 se distingue par la présence de 2 interfaces complémentaires :

Optimisez les coûts de possession de votre information et redonnez de la capacité d investissement au DSI

UE11 Phonétique appliquée

Organiser le disque dur Dossiers Fichiers

Ministère des Affaires étrangères et européennes. Direction de la politique culturelle et du français. Regards VII

MAÎTRISE DE L ENVIRONNEMENT WINDOWS VISTA

KX-NCP500 / KX-NCP1000

FABRIK4WEB. création web - communication interactive - solutions digitales

Chapitre 3 : Les technologies de la communication. I- Les TIC de la PME

Lutter contre les virus et les attaques... 15

ACTIVITÉS DE COMMUNICATION LANGAGIÈRE ET STRATÉGIES

5. Excel 2010, le tableur collaboratif. a. Concevez des tableaux lisibles

Les technologies d aide

Guide utilisateur. Parrot MKi9100. Français. Parrot MKi9100 Guide utilisateur 1

Des méthodes conviviales pour commencer ou approfondir l apprentissage d une langue

Steganos présente Security Suite 2007, son incontournable suite de sécurité pour PC.

Catalogues des formations

Guide Pratique Gérez efficacement vos contacts

Vous allez changer d avis sur les ordinateurs

Vodafone Mobile Connect

Pourquoi construire son PC?

Dossier de presse. Mai 2015

«Connais toi toi-même comme l as dit Socrate!»

TABLETTE MPMAN MP724 : EMPORTEZ LE MONDE AVEC VOUS

Un ordinateur, c est quoi?

Ce qu il faut savoir avant de partir : faire respecter vos droits, c est notre but

GUIDE RAPIDE FONCTION MAINS LIBRES AVEC RECONNAISSANCE VOCALE

REMISE A NIVEAU DES SAVOIRS DE BASE INFORMATIQUE

ANNEXE. PROGRAMME DES FORMATIONS DISPENSÉES AU CLUB MONTALEAU (ANNÉE 2014/2015)

Demandez librement conseil auprès de votre Partenaire Mercedes-Benz. Il connaît votre voiture mieux que quiconque et partage la même passion que vous.

Manuel de l utilisateur

Ordinateur Logiciel Mémoire. Entrées/sorties Périphériques. Suite d'instructions permettant de réaliser une ou plusieurs tâche(s), de résoudre un

ANNEXE 5 PROJET TECHNIQUE SYSTEME TELE-BILLETTIQUE DE LMCU

LA RECONNAISSANCE VOCALE INTEGREE

Créca. Ajout aux livrets d informatique. Hiver 2014

Installation et prise en main d UBUNTU

CHOIX ET USAGES D UNE TABLETTE TACTILE EN ENTREPRISE

Efficace et ciblée : La surveillance des signaux de télévision numérique (2)

Business Talk IP Centrex. guide. web utilisateur. pour. les services standards

Une ergonomie intuitive

Manuel d utilisation du logiciel de messagerie personnelle Palm VersaMail 2.5

La Solution Télématique Innovante pour la voiture basée sur Windows Mobile

Club informatique Mont-Bruno Séances du 18 janvier et du 17 février 2012 Présentateur : Michel Gagné

A C T I V I T É S CE QUE JE CONNAIS CONTEXTE PROFESSIONNEL. Quel est l élément essentiel du poste informatique? ...

Le téléphone de voiture. professionnel. «Téléphonez en toute simplicité et en toute sécurité» Systèmes PTCarPhone

Compte rendu : Bourse Explora Sup

Bilan de la concertation sur le PEDT

SYSTRAN 7 Guide de démarrage

Débroussailler les paiements mobiles :

SYSTÈMES DE COMMANDE. The Art of Mobility

Français langue étrangère Savoir-faire - Actes de paroles - Supports d apprentissage -Tâches

CegidBusinessPlaceMode. Back Office. Le progiciel de gestion intégré pour piloter votre réseau de distribution

Business Everywhere. travailler partout. mars 2007

Le serveur SLIS - Utilisation de base

Maps Tableau de bord avec MindManager et Power Markers

Speexx Basic Anglais, Français, Allemand, Italien, Espagnol,

Module 1 Module 2 Module 3 10 Module 4 Module 5 Module 6 Module 7 Module 8 Module 9 Module 10 Module 11 Module 12 Module 13 Module 14 Module 15

Paramètres d accessibilité des systèmes d exploitation Windows et Mac

Démarrer et quitter... 13

Mon aide mémoire traitement de texte (Microsoft Word)

NS1000 PANASONIC SERVEUR SIP TOUJOURS AU-DELÀ DE VOS ATTENTES DE COMMUNICATIONS UNIFIÉES

TOGO CELLULAIRE LE GUIDE DU MC+

Afin d accéder à votre messagerie personnelle, vous devez vous identifier par votre adresse mail et votre mot de passe :

Dossier de Presse Freeplanning

OPTIONS INTEGREES. des s des fax via internet (par ) des messages vocaux des messages SMS des T-mails ( s en synthèse vocale)

LES OUTILS DE TRAVAIL COLLABORATIF EN ARS. Rendez-vous en conférence web dans 10 minutes. D accord, je me connecte. Réunion. Martinique.

Trucs et astuces N o 2.1 COMMENT AJUSTER VOTRE TABLETTE PORTE-CLAVIER

Gamme d'adaptateurs DAxx pour téléphonie VoIP. Tony Jones

Permis de conduire info

PLATEFORME MÉTIER DÉDIÉE À LA PERFORMANCE DES INSTALLATIONS DE PRODUCTION

Quels sont les indices observés chez les enfants présentant un trouble de traitement auditif?

Découverte de Microsoft Office 2010 et de Microsoft Exchange Server 2010

Alcatel OmniPCX Office

Transcription:

Présentation personnelle La reconnaissance vocale Réalisé par Cyril Friche - TR6 4 juillet 2002 Made with LATEX

EIVD / Institut TCOM Cyril Friche 2 Auteur Cyril Friche E-mail cyril.friche@eivd.ch Classe ETR6 - Télécommunications, Réseaux et Services, EIVD - Yverdon, Suisse Résumé Dans le cadre d une présentation personnelle théorique, l auteur doit analyser et étudier le principe de la reconnaissance vocale. Un aperçu du principe de fonctionnnement ainsi qu un état des lieux est impératif. L accent sera principalement mis sur les perspectives d avenir de cette technologie ainsi que sur les solutions actuelles et leurs domaines d utilisations. Ce document ne sera en aucun cas utilisé comme référence dans les systèmes à reconnaissances vocales du fait de son caractère succint, mais au contraire son but est d aiguiller le lecteur vers les domaines d utilisations de ces systèmes. Mots clefs Reconnaissance, voix, vocal, ASR, parole, TTS.

EIVD / Institut TCOM Cyril Friche 3 Table des matières 1 Introduction 4 1.1 Quelques chiffres................................ 4 1.2 Reconnaissance et synthèse vocale....................... 5 2 Principes de fonctionnement 5 2.1 Comment ça marche?............................. 5 2.2 Modèle linguistique............................... 6 2.3 Modèles acoustiques.............................. 6 2.4 Décodage.................................... 7 3 Problèmes rencontrés dans les systèmes ASR 7 3.1 Sensibilité.................................... 7 3.2 Evaluation de la reconnaissance........................ 8 4 Applications 8 4.1 Typologie des systèmes commercialisés.................... 8 4.2 Applications destinées au grand public.................... 10 4.2.1 Services vocaux............................. 10 4.2.2 Domotique................................ 11 4.2.3 Navigation vocale sur le web...................... 11 4.3 Applications en milieu professionnel...................... 12 4.3.1 Contrôle de qualité, saisie des données................ 12 4.3.2 Avionique................................ 13 4.3.3 Identification et vérification du locuteur............... 14 4.3.4 Aide à la navigation à bord de voiture................ 14 4.4 Formation.................................... 15 4.5 Aide au handicap................................ 16 4.6 Systèmes de dictée automatique ou d entrée vocale............. 17 4.6.1 Présentation............................... 17 4.6.2 Logiciels disponibles.......................... 17 4.6.3 D un mot, la mise ne forme...................... 18 4.6.4 Evolutions futures........................... 18 4.7 Traduction automatique............................ 19 4.7.1 Systèmes mono-utilisateur....................... 19 4.7.2 Systèmes multi-utilisateurs....................... 19 5 Conclusion 20 6 Quelques définitions et acronymes 21

EIVD / Institut TCOM Cyril Friche 4 1 Introduction La maîtrise des interfaces vocales représente aujourd hui un enjeu majeur dans l univers des télécommunications. Intuitives, conviviales et ne nécessitant aucun apprentissage, ces interfaces constituent en effet un mode d accès particulièrement apprécié des utilisateurs. Simples à mettre en oeuvre et peu coûteuses, elles séduisent aussi de plus en plus d entreprises, auxquelles elles permettent de créer des services innovants. Cette phrase, citée dans [2] par Francis Charpentier, résume bien la situation et toutes les perspectives d avenir des systèmes à reconnaissance vocale. Qui d entre vous n a jamais rêvé de piloter son installation domestique à la voix? L homme étant par nature assez paresseux, toutes les inventions lui faisant éviter des efforts physiques lui paraîtront intéressantes. Agir sur l éclairage, enclencher son matériel audio-vidéo, activer son système d alarme, commander son ordinateur pourraient alors être pilotés sans aucun interrupteur, ni clavier, ni clé. Outre le rêve et l aspect magique fort légitimes inspirés par les meilleurs films de sciences-fictions, c est bien évidemment un confort d utilisation inégalable auquel on pense en premier lieu quand on envisage ces possibilités. Evitons de rêver et gardons les pieds sur terre. Avant de parler des bienfaits que pourraient nous apporter les systèmes à reconnaissance vocale, l auteur estime qu une vue d ensemble du principe de fonctionnement est nécessaire. La reconnaissance vocale (ASR, Automatic Speech Recognition) repose sur des techniques mathématiques très poussées et de ce fait fort compliquées. C est pour cette raison que le chapitre 2 n est qu une introduction au fonctionnement d un système ASR. 1.1 Quelques chiffres Le secteur de la reconnaissance vocale est actuellement en pleine croissance. Selon une estimation produite sur la base de données recueillies par la société Dataquest [1], il paraît ainsi possible d établir que les ventes mondiales d applications en reconnaissance de la voix bondiront, d ici cinq ans, de 247 millions de dollards US à 4,5 milliards de dollards US. Les avantages économiques retirés de l emploi des technologies vocales sont de plus en plus importants, à mesure que la robustesse de ces dernières - la qualité de leur fonctionnement - augmente. Une étude a, par exemple, permis d établir qu il est beaucoup moins coûteux, pour une entreprise, de confier à des systèmes de reconnaissance de la voix plutôt qu à des agents faits de chair et d os la tâche de réaliser certaines transactions comme la prise d ordres boursiers, la fourniture d information aérienne, etc... Pourtant, pour se faire, la technologie de la reconnaissance vocale doit encore progresser. A titre d exemple, avec un kit mains libres aujourd hui, le taux de reconnaissance d un nom est de 90 à 95%, autrement dit, un nom sur 10 n est pas reconnu, alors que les études montrent qu un taux d erreur de un sur 50 (98% de reconnaissance) est le minimum acceptable pour les utilisateurs.

EIVD / Institut TCOM Cyril Friche 5 1.2 Reconnaissance et synthèse vocale Lorsqu on étudie un temps soit peu les systèmes vocaux, on s aperçoit très rapidement que deux acteurs y jouent le premier rôle : La reconnaissance vocale (ASR) La synthèse vocale (TTS, Text To Speech) Le premier nommé permet à la machine de comprendre et de traiter des informations fournies oralement par un utilisateur humain. Le second permet de reproduire d une manière sonore un texte qui lui est soumis, comme un humain le ferait. L auteur en reste là concernant le TTS, le sujet de ce document n est pas celui-là. Pour obtenir des informations sur TTS, se référer à [3]. Il faut bien distinguer les deux mondes : un système TTS peut très bien fonctionner sans qu un module ASR n y soit rattaché. Evidemment le contraire est également tout à fait possible. Par contre, dans certains domaines bien précis l un ne va pas sans l autre. En réalité tout dépend généralement de l utilité du système et bien évidemment du confort que l on veut proposer aux utilisateurs. 2 Principes de fonctionnement 2.1 Comment ça marche? Un système complet de reconnaissance vocal (voir la figure 1), appelé aussi système de transcription, repose sur des théories bien formalisées : Analyse spectrale Théorie de l information Programmation dynamique Modèles de Markov La première partie du système de transcription, qui calcule les paramètres acoustiques, se fonde sur la production de la parole. Schématiquement, la parole est un souffle d air, modulé au niveau des cordes vocales pour certains sons, qui traversent le conduit vocal. La forme du conduit vocal (position de la langue, de la mâchoire ou des lèvres) détermine des résonances acoustiques, caractéristiques du timbre de chaque phonèmes 1. On cherche, au moyen d une analyse spectrale par fenêtre glissante, à conserver le timbre sonore en le séparant de la modulation des cordes vocales ; de plus, l analyse est réalisée sur une échelle de fréquences proche de la manière dont les fréquences sont traitées par le système auditif. La deuxième partie du système de transcription, le moteur de reconnaissance, reçoit les paramètres acoustiques et produit en sortie une suite de mots. Il utilise plusieurs sources de connaissances, à savoir : Des modèles acoustiques : une représentation du timbre des phonèmes Une modélisation linguistique : quelles sont les phrases qui peuvent être prononcées dans la langue? 1 Les phonèmes sont les sons élémentaires : a, é, ss, etc...

EIVD / Institut TCOM Cyril Friche 6 Un dictionnaire des mots de la langue avec leur prononciation phonétique On recherche ensuite la suite de mots la plus probable correspondant aux paramètres acoustiques observés : cela s appelle le décodage 2. Une réécriture probabiliste permet de décomposer le problème et de l exprimer comme la recherche de la suite de mots maximisant conjointement la probabilité de cette phrase dans la langue (estimée par le modèle linguistique) et la probabilité que les paramètres acoustiques correspondent à la phrase (estimée par la modélisation acoustique). Fig. 1 Architecture d un système de transcription automatique 2.2 Modèle linguistique La modélisation linguistique donne la probabilité d une phrase dans la langue. Ceci est fait en général de manière très simplifiée, dans le cadre d une hypothèse markovienne d ordre n : la probabilité de la phrase est le produit des probabilités de chacun des mots de la phrase sachant les mots précédents, en se restreignant à un passé de quelques mots. Ces probabilités sont estimées par comptage sur de grandes quantités de textes de référence (par exemple plusieurs années d archives de journaux contenant des centaines de millions de mots...), en se limitant à un passé de 2 ou 3 mois. On ne prend donc pas en compte les dépendances grammaticales à long terme. 2.3 Modèles acoustiques La modélisation acoustique représente les phonèmes de la langue au moyen de modèles de Markov cachés. Il s agit de petits automates probabilistes dont les états modélisent des configurations de l appareil phonatoire. Les caractéristiques de ces modèles sont estimés sur des corpus de plusieurs centaines d heures de parole transcrites manuellement. 2 Par exemple, on aura plus de chance de retrouver Cher Monsieur que Chair Monsieur

EIVD / Institut TCOM Cyril Friche 7 2.4 Décodage Ce processus consiste à rechercher le chemin optimal dans le graphe de toutes les phrases possibles. La phrase est construite comme un enchaînement de mots, eux-mêmes constitués de phonèmes chacun modélisés par un petit automate d états acoustiques. La complexité du décodage est réduite grâce à la programmation dynamique, qui permet de réaliser le décodage dans un temps proportionnel à la durée de la phrase enregistrée, et en utilisant de nombreuses heuristiques pour réduire la taille du graphe. 3 Problèmes rencontrés dans les systèmes ASR 3.1 Sensibilité La reconnaissance de la parole étant basée sur une modélisation statistique, il est important de comprendre, pour la mettre en œuvre efficacement, qu elle ne peut pas, par nature, atteindre une fiabilité de 100%. Une performance à laquelle aucun système créé par l homme ne peut d ailleurs prétendre... Technologie humaine par excellence, la reconnaissance de la parole est sensible à un ensemble de facteurs. Certains techniques, mathématiques ou linguistiques. D autres tout simplement humains. Par exemple : Plus le vocabulaire est petit, meilleur est le taux de reconnaissance Plus les mots à reconnaître sont courts et semblables, plus le travail de reconnaissance est délicat Le bruit environnant : les applications sur réseau mobile, souvent destinées à être utilisées en environnement souvent bruyant, demandent des techniques de filtrage particulières Le degré de familiarité de l utilisateur avec le service influe sur les résultats qu il obtient Plus le dialogue est guidé, fermé, plus le locuteur utilise des mots reconnus par le système et meilleur est le taux de reconnaissance Plus la quantité d enregistrements vocaux utilisés pour modéliser le système est grande, plus le taux d erreurs est faible Le réglage des performances sur le terrain : le taux d erreur peut être considérablement réduit en optimisant encore les modèles du vocabulaire Bien évidemment, tout dépend également du locuteur lui-même. Soit au niveau de son sexe, de son origine dialectale ou de son état physique. On peut imaginer que la motivation, le débit de la parole, l état physique (fatigue, état émotif, stress) peuvent fortement influencer la qualité de la reconnaissance. Toutes les langues ne sont pas égales devant la reconnaissance de la parole. Un logiciel avec des performances x dans une langue n aura pas des performances identiques dans une autre, à moins d une adaptation. La prosodie de l anglais se traduit par une accentuation du début des mots, alors qu en français, c est l inverse. En anglais, la liaison entre les mots est quasi-inexistante, mais omniprésente en français.

EIVD / Institut TCOM Cyril Friche 8 3.2 Evaluation de la reconnaissance Afin de citer des méthodes d évaluation, il faut au préalable évaluer dans quels cas les systèmes ASR peuvent être défaillant. Les erreurs d un système de reconnaissance peuvent être classés en 3 types de base : substitution : un mot est confondu avec un autre mot du vocabulaire élision : un mot prononcé n a pas été reconnu insertion : un mot non prononcé a été reconnu Les types d erreur n ont pas toutes le même poids : une erreur de substitution de mot est en général plus grave que le rejet intempestif d un mot correctement prononcé (élision). Une telle catégorisation ne permet pas toujours facilement d évaluer un système de reconnaissance de mots connectés ou de parole continue, dans la mesure où l étiquette de l erreur ne peut être déterminée de façon univoque et rigoureuse : une substitution peut en effet être interprétée comme une élision suivie d une insertion. En pratique, on utilise un système d alignement automatique permettant de retenir le meilleur diagnostic. Pour les systèmes de reconnaissance de grands vocabulaire, on substitue au nombre de mots bien reconnus la notion de précision (accuracy) qui est le pourcentage de mots bien reconnus par rapport au nombre de mots attendus. A ces critères de base peut s ajouter la notion de taux de rejet qui se décompose en deux cas : un mot valide a été rejeté alors qu il aurait dû être accepté (faux rejet qui peut être assimilé à une élision), un mot non autorisé ou bruit a été reconnu comme appartenant au vocabulaire (fausse acceptation qui peut être assimilé à une insertion). 4 Applications 4.1 Typologie des systèmes commercialisés Plusieurs critères permettent de caractériser les systèmes de reconnaissance. Ces critères correspondent aux éléments qui interviennent dans le processus de parole : Mode d élocution : selon que l utilisateur prononce les mots en parole continue, ou en mode isolé en marquant une pause entre les mots. Dépendance au locuteur / apprentissage : les systèmes sont soit indépendants du locuteur (multilocuteurs) soit dépendants du locuteur (monolocuteurs). Dans ce dernier cas, ils sont capables de ne reconnaître que la voix des personnes qui ont fait un apprentissage préalable. adaptation : les systèmes les plus récents sont fondés sur la reconnaissance d unités plus petites que le mot, correspondant le plus souvent à ce qu on appelle un triphone qui représente la forme acoustique d un phonème dans le contexte de ses phonèmes voisins immédiats. Il est alors demandé à tout nouvel utilisateur de prononcer un ensemble de phrases comportant l ensemble des phonèmes d une langue, afin d adapter les références à sa voix. La durée d une telle adaptation est souvent de l ordre d une petite demi-heure. La plupart du temps, les systèmes de dictée automatique sont adaptifs en ligne, c est-à-dire que les modèles (acoustiques et linguistiques) sont,

EIVD / Institut TCOM Cyril Friche 9 de façon implicite, automatiquement modifiés pendant l utilisation réelle. Taille du vocabulaire : il peut être petit (quelques dizaines de mots), moyen (quelques centaines) ou grand (plusieurs milliers ou dizaines de milliers). Quand l application est bien définie, on constate souvent que quelques centaines de mots peuvent suffire. Lorsqu on aborde la dictée automatique, la taille dépasse vite les dizaines de milliers de mots. Prise de son : le microphone peut être soit directif et de proximité (ce qui nécessite alors le port d un casque), soit posé sur le bureau, soit intégré dans le combiné téléphonique. Dans certains environnements bruités (voiture, borne de hall de gare, etc...), une antenne ou barrette de plusieurs microphones permet de mieux localiser le locuteur et d extraire le signal de parole du bruit ambiant. Temps de réponse : il doit être inférieur à la seconde Performances : le taux de reconnaissance doit être supérieur à 95% au niveau du mot. Ce critère dépend bien évidemment de l objectif poursuivi dans l application. Les produits actuellement disponibles dérivent d un compromis entre les différents critères décrits ci-dessus, ce qui permet généralement de déterminer trois catégories d applications : 1. Système indépendant du locuteur, fonctionnant à travers le téléphone ou avec un simple microphone, mais ne pouvant reconnaître qu un vocabulaire limité de quelques dizaines à quelques centaines de mots, reconnus en mode isolé ou détectés dans le flot de parole continue. 2. Système de reconnaissance de parole continue d un vocabulaire de taille moyenne (quelques centaines de mots), monolocuteur (nécessitant une courte phase d apprentissage) éventuellement adapté à un environnement difficile (robuste au bruit, par exemple). 3. Système monolocuteur adaptatif permettant la reconnaissance dans un environnement calme d un vocabulaire de plusieurs dizaines de milliers de mots (ou de vocabulaire illimité), mais imposant le plus souvent à l utilisateur de marquer une courte pause entre les mots et de se plier à une phase d adaptation souvent fastidieuse de plusieurs dizaines de minutes. Les contraintes qu imposent les technologies vocales déterminent les utilisateurs potentiels auxquels ces produits sont destinés, les professionnels et le grand public n ayant pas des exigences de même nature. L utilisateur professionnel peut accepter certaines contraintes : il peut se plier à une session d apprentissage du vocabulaire ou accepter une reconnaissance de qualité médiocre, mais il aura le plus souvent besoin d un vocabulaire étendu. Au contraire, le grand public souhaitera disposer d une reconnaissance de haute qualité et refusera tout apprentissage préalable, mais ne sera pas gêné par une diction par mots isolés, pour peu qu il soit guidé par le dialogue : dans ce cas, quelques dizaines de mots de vocabulaire peuvent sembler suffisant.

EIVD / Institut TCOM Cyril Friche 10 4.2 Applications destinées au grand public 4.2.1 Services vocaux Les serveurs passifs existent depuis de nombreuses années tels que l horloge parlante, la météo, les résultats des courses, du loto, etc. Mais lorsque la quantité d information est importante, il devient nécessaire pour l utilisateur de pouvoir sélectionner ce qu il veut entendre. Dans des cas simples la sélection de touches multifréquences (DTMF) 3 peut suffire. Mais des applications plus complexes (accès à des bases de données, cours de la bourse, télé-achat, état des routes, enneigement des stations de sport d hiver, résultat sportif, etc...) requièrent une interaction vocale. L utilisateur peut ainsi naviguer dans une arborescence en prononçant les mots de contrôle de l application, comme indiqué dans la figure 2. Ces services ne peuvent que s étendre à tout un ensemble de domaines : la réservation de Fig. 2 Interaction vocale avec un téléphone places d avion, de train, de théâtre, de chambres d hôtel, les déclarations de sinistre à l assureur, les consultations et transactions bancaires, les opérations boursières, la facturation automatique des appels à distance, etc... La vérification de l identité de l appelant est nécessaire pour certaines des transactions qui 3 Dual Tonne Multi Frequency. Une paire de fréquence propre à chacune des 16 tonalités définies permet la transmition de leurs valeurs respectives.

EIVD / Institut TCOM Cyril Friche 11 sont confidentielles (banques, assurances, consultation de messagerie personnelle). L opérateur américains SPRINT est le premier à offrir un service de carte téléphonique qui contrôle l identité de l utilisateur par l analyse de sa voix (les autres opérateurs utilisent uniquement un code confidentiel entré à partir des touches du téléphone). Ce service permet de transférer le paiement d un appel effectué à partir de n importe quel poste téléphonique (y compris les cabines publiques) sur le compte de l abonné. L introduction de la vérification du locuteur semble avoir éliminé l utilisation frauduleuse du code d une autre personne. 4.2.2 Domotique Les systèmes de commandes vocales de tous types d appareils électroniques se trouvant dans la maison commencent à émerger petit à petit. Evidemment, il y a déjà des applications semblables permettant aux handicapés de vivre indépendamment (voir le chapitre 4.5), mais à notre connaissance ces solutions ne sont que très peu répendues pour les personnes non handicapés. Néanmoins, il existe quelques précurseurs. Panasonic a lancé début 2002 au Japon le premier poste télé qui se pilote à la voix. Ce téléviseur numérique donne accès à l ensemble des chaînes télévisées, à la radio mais aussi à des services interactifs. L outil télévisuel par excellence - la télécommande - a été conservé : équipée d un microphone, c est par son biais qu on change de chaîne, règle le son, programme un enregistrement. Le téléviseur est commercialisé au prix de 8000 euros (!). Dans le même domaine, la jeune société NeuVoice [4], issue de l Université de Plymouth, a lancé un nouveau système de contrôle vocal. Il a été modélisé à partir du fonctionnement de l appareil auditif humain et par conséquent se révèle très efficace en environnement bruyant : il repose sur un système informatique capable de modéliser la façon dont le cerveau sépare les sons que nous voulons entendre de ce que nous rejetons comme fond sonore. Selon NeuVoice, ce nouveau dispositif pourrait être intégré non seulement aux téléphones portables et aux assistants électroniques personnels (PDA), mais aussi à toute une série d appareils ménagers. Si, à la différence des produits développés par IBM [12] ou Dragon [13], il dispose d un vocabulaire limité, il a en revanche l avantage de sa petite taille et de sa faible consommation d énergie. La machine à café commandée vocalement n est plus très loin... 4.2.3 Navigation vocale sur le web La société Interactive Speech [11] a mis au point une technologie de Voice Navigation, gratuite pour les internautes et simple à intégrer pour les sites Web. Un exemple est présenté directement sur la page d accueil de la société à l adresse http://www.interactivespeech. com/fr/. Lors du chargement de la page, une fenêtre d aide à la navigation (plugin) apparaît (voir la figure 3). Il suffit d avoir un microphone et une carte son pour que la navigation soit possible. Tous les liens disponibles vocalement sont inscrits dans la fenêtre d aide à la navigation. Evidemment, le contenu de cette fenêtre varie dynamiquement en fonction de la page activée. L auteur conseil vivement le lecteur à essayer ce type de navigation, le résultat est

EIVD / Institut TCOM Cyril Friche 12 tout simplement parfait. Par contre, il est préférable de travailler seul dans son bureau car vos commandes vocales ne seront que très peu appréciées par vos voisins... 4.3 Applications en milieu professionnel 4.3.1 Contrôle de qualité, saisie des données L interface vocal libère la vue et les mouvements : l utilisateur peut se déplacer librement pour manipuler des objets ou entrer des données. Pendant qu il observe un processus complexe, il peut décrire des informations visuelles. Il a aussi la possibilité de commander à distance un automate évoluant en milieu hostile (apesenteur, sous-marin, industrie pétrolière). Un système portable Talkman de Vocollect [15] a été évalué et mis en service à la SNCF pour des opérateurs itinérants. Manipulant des outils et divers instruments de mesures lors de ses relevés, ses opérateurs effectuent des relevés d informations sur des organes de wagons SNCF pour déclencher le passage en révision. Ils interviennent dans des conditions dangereuses. La fonctionnalité main libre et vue libre que procure une interface vocale est là essentielle. Sur le même principe, la société Conversay (voir [5]) commercialise une application nommée Voice Surfer. Avec ce programme, un employé peut par exemple entrer tout l inventaire de son stock en utilisant uniquement la voix. Le gain de temps est directe car avec ce prin- Fig. 3 Fenêtre d aide à la navigation vocale

EIVD / Institut TCOM Cyril Friche 13 cipe les donnnées fournies sont automatiquement sauvegardées sur un ordinateur distant, comme le montre la figure 4. Fig. 4 Saisie d un inventaire avec un simple casque-micro 4.3.2 Avionique A bord d avions les tâches étant de plus en plus complexes et le tableau de bord de plus en plus réduit, la parole permet au pilote d avoir à sa disposition un moyen supplémentaire d interaction avec la machine, sans cependant gêner l accomplissement des tâches courantes qui requièrent de sa part toute son attention visuelle. Les autorités canadiennes ont été les précurseurs des techniques vocales dans l avionique. Ainsi, L Institut de recherche aérospatiale (IRA) a effectué des travaux de recherche sur la technologie vocale depuis la fin des années 70. Dans les années 80, la recherche sur la reconnaissance de la parole était axée sur la mise au point de techniques qui fonctionnent dans les postes de pilotage des aéronefs, où le niveau de bruit ambiant est très élevé. BAE Systems Canada a mis au point un système prototype de reconnaissance de la parole qui a été installé dans l hélicoptère Bell 205 à stabilité variable de l IRA. Ce système a démontré un très haut taux de reconnaissance de la parole à partir de données recueillies dans le poste de pilotage de l hélicoptère, où il y a beaucoup de bruit. Actuellement, un système de reconnaissance de la parole est prévue à bord du tout nouvel avion de l armée française, le Rafale.

EIVD / Institut TCOM Cyril Friche 14 4.3.3 Identification et vérification du locuteur L importance d un tel sujet d étude a déjà été soulignée dans le cas des serveurs vocaux. Des études approfondies ont été également entreprises pour assurer une meilleure sécurité pour l accès, en direct (et non plus par téléphone), à des bases de données confidentielles ou à des enceintes protégées. La société suisse Invoxis [6], fondée par deux anciens employés de Swisscom, est spécialiste dans les technologies d identification du locuteur. L entreprise s appuie sur les techniques développées par deux sociétés américaines, Nuance et Speechworks ainsi que par celles de Lernout & Hauspie. Dans le cadre de l opérateur national, le groupe parole de Swisscom d où est issue Invoxis a été amené à créer un système de mots de passe qui permet aux 17 000 employés qui ont oublié le leur d en obtenir un nouveau après un simple appel au système qui reconnaît leurs voix. «L objectif de telles applications est de court-circuiter l arborescence d un système par touche afin de faciliter la vie aux usagers», explique Jean- Luc Cochard, co-fondateur. Invoxis, qui a déposé une marque sur cette application, baptisée PassVox, a décidé d en faire son fer de lance commercial. La société américaine Aeritas Inc. [14] vient de développer un système utilisant les empreintes vocales pour sécuriser l embarquement des passagers dans les avions. Ce système, baptisé FreedomPass, offre aux passagers d enregistrer leur empreinte vocale depuis leur téléphone mobile ou leur PDA quand ils commandent leurs billets et de définir leur profils. Le jour de son voyage, le passager reçoit un message sur son téléphone lui demandant de confirmer oralement être bien le titulaire de son billet d avion. Une carte d embarquement virtuelle est alors délivrée sur l écran du téléphone, lui permettant d embarquer sans passer au comptoir de sa compagnie aérienne. 4.3.4 Aide à la navigation à bord de voiture Aujourd hui, les systèmes existent et fonctionnent mais pour la plupart, ils ne sont pas encore commercialisés. Seul l Auto-PC de Clarion est distribué, via la Citroën Xsara Windows CE (série limitée). Première voiture communicante, elle offre les fonctionnalités suivantes : radio, lecteur CD et CD-rom, carnet d adresses, téléphone main libre, navigation, envoi et réception de message (SMS, e-mails), transfert de données de et vers un autre périphérique portable et appel automatique vers un centre d assistance Citroën. Tous les systèmes devraient, lorsqu ils seront totalement opérationnels, allier quasiment les mêmes performances : la navigation (guidage), l utilisation des commandes par reconnaissance vocale, le courrier électronique, l accès à l Internet, les loisirs (lecteur DVD, consoles de jeux vidéo...), le chargement et l échange de MP3, jeux vidéo, Palm..., la gestion d agenda et carnet d adresses et l analyse de l état du véhicule. Les écrans s installeront quant à eux sur le tableau de bord, à la place de l autoradio et sur les appuis-tête. Le groupe PSA (Peugeot Citroën) allie ses compétences à celles de Vivendi pour créer le premier portail multi-accès conçu pour l automobiliste européen. Le projet se nomme Wappi et permettra à l automobiliste d obtenir des informations personnalisées et actualisées, dans toute l Europe et dans sa langue, il sera accessible partout à tout moment, dans

EIVD / Institut TCOM Cyril Friche 15 la voiture ou sur d autres écrans (ordinateur, téléphone portable...). PSA prévoit 1 million de véhicules Peugeot et Citroën équipés en 2002. SmartRadio de Motorola se place comme un concept innovant d accès à des services d information et de loisir dans l automobile grâce à l Internet sans fil. Il prend la requête de l utilisateur, l envoi à un serveur qui renvoie les données. Les services sont multiples et peuvent être développés sans remettre en cause le matériel (lui-même moins onéreux qu un ordinateur embarqué puisqu il a besoin de moins de mémoire). SmartRadio est un système évolutif qui détecte les besoins de l utilisateur et lui propose des services adaptés. Il devrait être mis en place en 2002. Avec l Internet embarqué, la voiture devient l annexe du bureau. ScanSoft [7], grâce à l acquisition de Lernout & Hauspie, offre la suite de technologies et de services intégrés la plus complète et met à la disposition de l industrie automobile les fonctionnalités de synthèse et de reconnaissance vocales les plus puissantes du marché. Prise en charge multilingue, reconnaissance vocale, gestion du bruit environnant et synthèse vocale sont les atouts majeurs de la technologie ScanSoft au service de l industrie automobile. Scansoft s est associé il y a quelques temps avec Microsoft afin d intégrer ses techniques vocales sur la plate-forme logicielle télématique de Microsoft, Windows CE for Automotive 3.5. Avec cette alliance, nulle doute que ces deux sociétés deviendront dans un futur proche les principaux acteurs dans ce crénaux qui possède à coups sûr un bon avenir. 4.4 Formation Les enfants, mais aussi les adultes, sont attirés par des jeux doués de parole (poupée qui parlent, jeux de société, jeux vidéos, jeux éducatifs). L enseignement assisité par ordinateur et notamment les laboratoires de langue devraient intégrer de plus nombreuses possibilités audiophonique, et rapidement évoluer vers une interactivité plus grande : les systèmes d aide à l apprentissage des langues étrangères, permettent d acquérir une prononciation correcte, une maîtrise du vocabulaire et de la syntaxe, ne peuvent que bénéficier des technologies vocales qui leur confère en outre un aspect ludique. Du côté des applications proprement dites, une société se démarque des autres et peut être considéré comme la référence : Auralog [8]. Cette société édite des lociciels à buts très différents : TeLL me More Pro : la solution multimédia pour l apprentissage et l enseignement des langues étrangères TeLL me More e-system : une plate-forme puissante pour l apprentissage des langues, fonctionnant en réseau et accessible à distance TeLL me More e-learning : un service unique de formation à distance qui associe l efficacité des cours particuliers via Internet à la richesse du support CD-Rom Atout Clic Anglais : la première méthode de langues basée sur la reconnaissance vocale et conçue pour les enfants de 5 à 11 ans Auralog met à la portée du plus grand nombre d apprenants de nouveaux outils (voir la figure 5) qui font progresser encore l apprentissage des langues étrangères. Ainsi, grâce à la technologie avancée de la reconnaissance vocale, l utilisateur engage un véritable dialogue avec son PC. Suivant son niveau, l apprenant paramètre la reconnaissance vocale pour la

EIVD / Institut TCOM Cyril Friche 16 rendre plus tolérante ou plus exigeante quant à la qualité de sa prononciation. L utilisateur s entraîne à prononcer une phrase ou un mot et obtient un score lui permettant d évaluer la qualité de son accent, de sa prononciation et de son intonation. Fig. 5 Outil développé par Auralog permettant d évaluer sa prononciation 4.5 Aide au handicap Différents programmes européens ont permis de mieux cerner les différents types de handicap dont souffre la population, ainsi que le nombre de personnes concernées. On dénombre actuellement en Europe 12 millions de mal-voyants dont 1 million de non-voyants, 81 millions de mal-entendants, dont 1 million de non-entendants, environ 30 millions de personnes ayant un handicap moteur des membres supérieurs et 50 millions ayant un handicap des membres inférieurs. Ces nombres ne peuvent malheureusment que croître avec le vieillissement de la population. L intérêt des technologies vocales apparaît évident dans la mesure où celles-ci permettent aux personnes handicapées de retrouver une certaine autonomie et de bénéficier d une meilleure insertion dans leur environnement tant professionnel que familial, la parole se substituant au sens défaillant. La société Kempf conçoit et fabrique un système de commandes vocales appelé le Katalavox [9] 4 pour les applications suivantes : Le contrôle de fauteuils roulants pour tétraplégiques Le contrôle de fonctions secondaires dans l automobile pour conducteurs handicapés physiques 4 Katala = comprendre (Grec moderne) et vox = la voix (Latin)

EIVD / Institut TCOM Cyril Friche 17 Le Katalavox est utilisé par des personnes tétraplégiques, pour contrôler à la voix le fauteuil roulant électrique. Dans certains cas un autre type de microphone peut également être utilisé. Le système de reconnaissance vocale s adapte à n importe quelle langue. Même si quelqu un a des difficultés de prononciation, le système est capable de reconnaître des sons distincts. Il suffit de cinq sons pour contrôler un fauteuil. Les mots de commande sont combinés pour permettre d émuler les mouvements d un joystick. Kempf commercialise également un système de contrôle d environnement. Il permet à des personnes tétraplégiques d allumer et éteindre des lampes et autres appareils dans leur maison, de contrôler la télévision et des appareils à télécommande infra-rouge, et de répondre au téléphone et composer des numéros de téléphone. Dans les voitures, le katalavox permet de contrôler à la voix les fonctions secondaires, telles que les clignotants, l essuie-glace, le lave-glace, l avertisseur, l éclairage,... Sur le même principe, la société Protéor a conçu Tetravox, un outil permettant le contrôle d environnment à commandes vocales. Cette aide technique est utilisable en poste fixe ou sur fauteuil roulant. Elle peut remplacer n importe quelle commande infra-rouge ; elle peut donc permettre à une personne handicapée d actionner à distance tous les appareils récepteurs de son choix. 4.6 Systèmes de dictée automatique ou d entrée vocale 4.6.1 Présentation Les dernières applications ne requièrent qu un temps d apprentissage raccourci pour ne rarement dépasser la vingtaine de minutes, et surtout un meilleur taux de reconnaissance. Pour y parvenir, les éditeurs ont profité de l augmentation de la puissance des machines pour accroître la profondeur des calculs nécessaires et augmenter la taille du vocabulaire directement accessible en cours de dictée (vocabulaire évolutif). Le nombre de mots se compte aujourd hui en centaines de milliers contre quelques dizaines de milliers pour les versions précédentes. Résultat, un processeur à 300 MHz et 64 Mo de mémoire vive sont un minimum pour obtenir une vitesse de reconnaissance suffisante et, surtout, profiter de l ensemble des fonctions, comme la dictée dans son logiciel de courrier électronique ou la navigation à la voix sur Internet. 4.6.2 Logiciels disponibles Actuellement, quatre programmes (voir [10]) se taillent la part du lion dans le domaine des dictées vocales, ils sont cités ci-dessous selon leur ordre de qualité (du meilleur au moins bon) : Dragon Naturally Speaking 4.0 : Il nous est d emblée apparu comme le meilleur. En activant l option Best Match 3, à réserver aux machines les plus puissantes, les performances de reconnaissance sont excellentes dès la première utilisation. Naturally Speaking devance vraiment ses concurrents d une tête. Un retournement de situation puisque, il y a quelques temps, c est Via Voice d IBM qui menait la danse.

EIVD / Institut TCOM Cyril Friche 18 IBM Via Voice Millenium : De gros efforts d intégration pour cette version. On peut dicter dans n importe quelle application Windows et surtout piloter à la voix avec des commandes aussi complexes que Vérifier mes mails ou Composer message à Christian et Michel et cc Serge. La qualité de la reconnaissance se règle en fonction de la puissance disponible de la machine. Bon point aussi pour la technologie d Agents Microsoft, qui anime un personnage toujours prêt à aider! Lernout & Hauspie Voice Xpress 5 : Malgré un temps de mise au point plus long que ses concurrents, Voice Xpress n atteint pas les sommets prévus. Dommage, car son système de commande à la voix, notamment pour la mise en forme de textes sous Word, est l un des plus souples et efficaces. Les possesseurs de machines de moyenne puissance bénéficieront toutefois de sa vélocité avec un taux de reconnaissance acceptable. Philips Freespeech 2000 : Taux de reconnaissance trop faible, commande de correction à la voix peu efficace, absence de version d entrée de gamme, Freespeech n a rien d affriolant. Sauf peut-être la possibilité de dicter, en plus du français, en anglais, espagnol, italien, allemand... A noter la seule alternative actuelle au casque-micro : le Speech Mike, un micro qui se tient à la main et qui, muni d un mini trackball, fait office de souris. 4.6.3 D un mot, la mise ne forme De la simple mise en gras d un mot au formatage complet d un tableau, tout est possible, avec plus ou moins de bonheur selon le logiciel. Le plus fort, c est qu il n est plus nécessaire de préciser le passage du mode dictée au mode commande autrement qu en marquant une petite pause avant de dicter une commande. On peut donc dicter naturellement la visite de la tour Eiffel <pause> <Mettre les deux derniers mots en italique> s est bien déroulée. On peut aussi effectuer des changements après la dictée en sélectionnant une partie de texte et en la copiant/collant, toujours à la voix. Pour créer un joli tableau, il suffit en général de dire insérer un tableau de 7 lignes et 3 colonnes suivi de appliquer le Format automatique de tableau Liste 8 pour obtenir le résultat de la figure 6. Reste alors à remplir chaque cellule du tableau, soit en dictant à l intérieur, soit, pourquoi pas, en copiant le contenu d un tableau réalisé sous Excel. Rien n empêche d ailleurs de dicter aussi dans Excel puisque la plupart des versions l autorisent. 4.6.4 Evolutions futures A terme, on peut imaginer que les enregistrements de (télé)conférences et de débats pourront ainsi être automatiquement retranscrits (même avec des erreurs qui seront rapidement corrigées avec un logiciel intégré). Cela suppose cependant qu au cours d un débat, le système soit capable de détecter un changement de locuteur et reconnaître le nouvel interlocuteur. On peut également envisager la possibilité d indexer automatiquement de tels documents sonores pour faciliter leut consultation. 5 Les actifs Speech and Language de Lernout & Hauspie ont été rachetés en 2002 par la société ScanSoft

EIVD / Institut TCOM Cyril Friche 19 4.7 Traduction automatique 4.7.1 Systèmes mono-utilisateur Dans cette section on ne va que traiter les solutions simples qui permettent la traduction directe d une langue à une autre. En fait se ne sont que des logiciels semblables aux dictées vocales avec bien entendu ceetaines modifications. Le principe est simple. Les mots à traduire sont dictés par le locuteur, le logiciel effectue une reconnaissance et affiche en sortie la traduction dans la langue souhaitée. L Universal Translator UT-103 [Traducteur universel UT-103] de la société Ectaco [16] est un traducteur vocal équipé d un système unique de reconnaissance de la voix, permettant de traduire des phrases d anglais en français, en allemand ou en espagnol. L UT-103 comporte 14 thèmes différents de conversation, incluant environ 3000 phrases et expressions, facilitant ainsi la communication dans les hôtels, les bureaux de poste, les banques, les magasins, les restaurants, les hôpitaux, les salons de beauté et de nombreux autres endroits. 4.7.2 Systèmes multi-utilisateurs Des projets à plus long terme sont liés au domaine de la traduction automatique : l objectif étant de réaliser un système de dialogue interprétatif, permettant à une personne de converser de façon spontanée par téléphone avec un interlocuteur ne parlant pas la même langue. Le message de cette personne serait automatiquement traduit dans la langue de son interlocuteur avec une voix conservant toutes les caractéristiques du timbre de la voix qui a émis le message. Le projet C-STAR [17] permet la traduction multilingue de dialogues parlés. Prenons comme exemple un client Suisse voulant réserver son voyage au Etats-Unis. Fig. 6 Création d un tableau dans Word avec la reconnaissance vocale

EIVD / Institut TCOM Cyril Friche 20 Le dialogue ressemblerait à ceci : Agent : World Wide Travel here, Hello. Traduction : Bonjour, ici Worle Wide Travel Client : Bonjour je suis monsieur Blanchon et je voudrais organiser un voyage à Pittsburgh en partant de Lausanne. Traduction : Hello, I am mister Blanchon. I would like organize a trip to Pittsburgh from Lausanne. Agent : Yes. When? Traduction : oui, quand? Client : Disons fin juin j aimerais arriver le vingt et repartir le vingt-huit... 5 Conclusion Aujourd hui, la reconnaissance de la parole fonctionne bien. Très bien même, avec des taux de reconnaissance qui approchent dans certains cas parfois les 99%. Cette technologie a à coup sûr de beaux jours devant elle. Les applications citées dans ce document ne sont pas toutes au même stade de développement. Ainsi, les systèmes à dictée vocale sont bien implantées dans le marché, mais ne réunissent par contre qu un nombre d utilisateurs assez moindre. Au contraire, l industrie automobile n est qu à un stade de lancement mais pourrait dans un avenir proche envahir tout le marché. Ce domaine réunissant un grand nombre d utilisateurs potentiels, les entreprises spécialisées vont au devant de débouchés économiques forts attrayants. Actuellement, plus de la moitié de la population d Europe de l ouest possède une téléphone cellulaire de type GSM ou GPRS. Ainsi, un grand nombre de services vocaux téléphoniques dans tous les domaines possibles et imaginables émergent chaque années. Par exemple, le groupe Crédit Lyonnais permet, via une reconnaissance, de réaliser des achats et ventes d actions, de consulter son portefeuille ou encore de consulter des indices boursiers. La confidentialité et la sécurité des données n étant plus à prouver, un système de reconnaissance du locuteur permet d effectuer plus ou moins n importe quoi avec son téléphone. On aurait parfois tendance à oublier que la reconnaissance vocale est présente également dans des domaines qui ne parlent ni d argent, ni de paresse humaine. Plusieurs millions d handicapés utilisent tous les jours la reconnaissance vocale pour bouger, s alimenter, se déplacer, pour tout simplement vivre. Malheureusement, sur dix articles parlant de reconnaissance, peut-être seul deux seront consacrés aux handicapés. Pire encore, sur 1000 francs consacrés à la reconnaissance, peut-être seul 10 francs iront à la recherche pour améliorer la vie des handicapés.

EIVD / Institut TCOM Cyril Friche 21 6 Quelques définitions et acronymes ASR Automatic Speech Recognition TTS Text To Speech Chaîne de Markov Du nom du mathématicien russe. L introduction de cette théorie probabiliste dans le champ de la reconnaissance vocale a permis de représenter des sons élémentaires sous forme statistique. Phonème Unité qui permet de caractériser tous les sons d une langue. La plupart des langues comportent moins d une centaine de phonèmes. Par exemple a, é, ss,.... Prosodie L étude des phénomènes de l accentuation et de l intonation (variation de hauteur, de durée et d intensité) permettant de véhiculer de l information liée au sens telle que la mise en relief, mais aussi l assertion, l interrogation, l injonction, l exclamation,... Yverdon - 4 juillet 2002 Cyril Friche

EIVD / Institut TCOM Cyril Friche 22 Références [1] Dataquest, socitété de consulting, http://www.dataquest.com [2] Telisma - Paroles d expert, http://www.telisma.com [3] Calia Alessandro, Etudiant EIVD - TR6, Présentation personnelle - La synthèse vocale [4] Neuvoice, jeune société britannique spécialisée dans la reconnaissance embarquée, http://www.neuvoice.com [5] Conversay, société axée sur les systèmes vocaux embarqués, http://www.conversay.com [6] Invoxis, société suisse axée sur les systèmes d identification du locuteur, http://www.invoxis.com [7] Scansoft, spécialisé dans la navigation à bord de voitures, http://www.scansoft.com [8] Auralog, logiciels d apprentissage des langues étrangères, http://www.auralog.com [9] Katalavox, conçu par Kempf, aide aux personnes handicapés, http://www.katalavox.com [10] SVM, évaluation des logiciels de dictée vocale, http://www.vnunet.fr/svm/doss/svm/recovoc8.htm [11] Interactive Speech,société spécialisé dans la navigation vocale de site web, http://www.interactivespeech.com [12] IBM, mondialement connu avec son logiciel ViaVoice, http://www-3.ibm.com/software/speech/ [13] Dragon, société partenaire de ScanSoft, http://www.dragonsys.com [14] Aeritas Inc, société américaine spécialisée dans le commerce mobile, http://www.dragonsys.com [15] Vocollect, société commercialisant un système portable appelé Talkman, http://www.vocollect.com/sitehtml/products/talkman01.php [16] Ectaco, société commercialisant des traducteurs mobiles à reconnaissance vocale mobile, http://www.ectaco.com [17] C-STAR, projet permettant la traduction multilingue de dialogues parlés, http://www-clips.imag.fr/projets/cstar/clips/introclips.html