CORPUS POUR LA TRANSCRIPTION AUTOMATIQUE DE L ORAL Martine Adda-Decker Laboratoire d Informatique pour la Mécanique et les Sciences de l Ingénieur

Transcription

1 CORPUS POUR LA TRANSCRIPTION AUTOMATIQUE DE L ORAL Martine Adda-Decker Laboratoire d Informatique pour la Mécanique et les Sciences de l Ingénieur LIMSI/CNRS (UPR351), BP ORSAY cedex France Résumé Cette contribution vise à illustrer la réalisation et l utilisation de corpus à des fins de recherche en transcription automatique de la parole. Ces recherches s appuyant largement sur une modélisation statistique, s accompagnent naturellement de production de corpus écrits et de corpus oraux transcrits ainsi que d outils facilitant la transcription manuelle. Les méthodes et techniques mises au point permettent aujourd hui un déploiement vers le traitement automatique de l oral à grande échelle, tout en contribuant à un domaine de recherche interdisciplinaire émergeant : la linguistique des corpus oraux. Abstract This contribution aims at giving an overview of automatic speech recognition research, highlighting the needs for corpora development. As recognition systems largely rely on statistical approaches, large amounts of both spoken and written corpora are required. In order to fill the gap between written and spoken language, speech transcripts need to be produced manually using dedicated tools. Methods and resources accumulated over years now allow, not only to tackle genuine oral genres, but also to envision large-scale corpus studies to increase our knowledge of spoken language, as well as to improve automatic processing. Mots-clés : transcription automatique, modélisation statistique, linguistique de corpus oraux 1. Introduction Le traitement automatique de l oral (TAO), qui se développe depuis environ cinquante ans, a pris progressivement appui sur des corpus de parole de plus en plus grands et complexes. Depuis les premiers travaux (Davis 1952,Wiren-Stubbs 1956, Dreyfus-Graf 1972) qui visaient à identifier quelques phonèmes en utilisant des formants, des traits distinctifs ou globalement des mots en se basant sur les propriétés spectrales au cours du temps, les chercheurs du domaine sont passés d enregistrements contrôlés de quelques voyelles ou d une dizaine de mots prononcés de manière isolée par un locuteur sélectionné, à l exploitation de milliers d heures de locuteurs inconnus dans des conditions variées, d autant plus facilement accessibles, que radios et chaînes numériques sont en plein essor sur internet. Les progrès technologiques, ordinateurs en réseau de plus en plus performants avec des capacités de stockage toujours croissants, ne sont certainement pas la seule explication. L évaluation systématique (Mariani 2005, Pallett 2003, Galliano 2005, Dolmazon 1997) des moteurs de reconnaissance dans le cadre de grandes campagnes nationales, européennes et internationales a été érigée en paradigme puissant soutenant efficacement les progrès constants mesurés au cours du temps, grâce notamment à la production de corpus communs partagés par la communauté scientifique. Nous aborderons la raison pour laquelle le traitement automatique de la parole, et en particulier la transcription automatique, sont aussi gourmands en corpus oraux, mais également en ressources écrites et en transcriptions de l oral. Nous allons voir que les premières décennies ont permis d abord de prendre progressivement conscience de la complexité du phénomène parole, et de

2 développer méthodes, techniques et ressources permettant de traiter efficacement la parole correspondant surtout à de l écrit oralisé. Pouvant s appuyer sur un éventail de méthodes mathématiques, statistiques, informatiques très puissantes, les chercheurs sont aujourd hui mieux équipés pour s attaquer efficacement au traitement automatique de l oral, qui pose de nombreux défis au-delà de l écrit oralisé. Dans ce qui suit nous allons présenter dans la section 1 la problématique de transcription automatique de la parole, les sources de variabilité contribuant à la nature stochastique du signal de parole, ainsi que les méthodes de modélisation utilisées. Dans la section 2 nous allons décrire la production de corpus pour le TAO au cours du temps, tout en discutant des progrès accomplis. Notre volonté n est certainement pas d être exhaustif ici, mais de donner des exemples représentatifs. La production de corpus, facilitée par des outils dédiés (Barras 2001) et de conventions de transcription (Blanche-Benveniste 1999), aujourd hui toujours active, peut-être plus que jamais, s explique par les défis actuels du domaine: la transcription de l oral dans sa diversité, incluant différents contextes de communication, publics et privés, des locuteurs à accents régionaux ou étrangers, la parole en situation de stress ou d autres types d émotions, dialogues ou conversations à plusieurs... Dans une dernière partie, nous allons esquisser des recherches à visée plus linguistiques s appuyant sur les corpus oraux produits au cours du temps, avec les systèmes de transcription adaptés comme instruments de mesure (Habert 2005). 2. Reconnaissance automatique de la parole Les besoins de corpus en TAO sont différents de ceux des disciplines rattachées aux sciences de l homme s intéressant à l oral (phonétique, phonologie, sociolinguistique, psycholinguistique, ethnologie, anthropologie, pragmatique ) (Baude 2006). En particulier, pour la reconnaissance automatique de la parole les corpus sont conçus d abord pour répondre à des défis scientifiques et méthodologiques posés par la grande variabilité du signal acoustique de parole, ensuite pour couvrir au mieux un type d application. Il se trouve qu au fur et à mesure des progrès accomplis, les corpus produits revêtent un intérêt grandissant pour des études à caractère linguistique, dans la mesure où le type de parole étudiée, rejoint de plus en plus l oral naturel. À l inverse les corpus conçus par les linguistes peuvent venir enrichir les ressources pour le TAO (Durand 2003, Baude 2006). 2.1 Défis posés par le signal de parole Quels sont les problèmes posés par la parole en tant que signal physique continu avant de pouvoir être transformé en signe linguistique discret (signifiant d après la terminologie de Saussure)? Il est communément admis que la parole est très variable, les différents facteurs responsables sont à peu près connus. 1- De manière générale il n y a pas de frontières détectables entre les mots et les frontières de phonèmes sont souvent peu évidentes. La réalisation acoustique d un phonème dépend fortement de son contexte phonémique gauche-droite. 2- Le signal de parole varie en fonction du locuteur (sexe, âge, émotions, accent, ). 3- Les conditions d enregistrement et le bruit de fond se superposent à la parole dans l enregistrement. 4- Le style de parole (lue, préparée, spontanée...) influe fortement sur le débit, la

3 prosodie, la précision de l articulation, les variantes de prononciations (Fouché 1959). De même la situation (parole publique ou privée; monologue ou dialogue, familier ou formel) et l information portée par le contexte jouent un rôle important sur le choix des mots et leur prononciation. Le sujet abordé influe surtout sur le vocabulaire utilisé. 2.2 Modélisation statistique La transcription automatique de la parole, qui vise à convertir un signal acoustique de parole en suite de mots, repose largement sur une modélisation statistique de la parole (Jelinek 1976, Baker 1975). La reconnaissance de la parole, consiste à déterminer la meilleure suite de mots m à partir de l observation acoustique x. Avec l approche statistique ce problème repose alors sur la formule de Bayes : m = arg max m P(m x) = arg max m p(x m) P(m) Le décodeur (correspondant ici à l opérateur arg max, et reposant sur le principe de programmation dynamique (Bellman 1957, Forney 1973)) doit mesurer la probabilité de toutes les suites de mots m possibles pour ce signal :P(m x). Le problème se transforme grâce à la formule de Bayes en une optimisation à deux termes p(x m) P(m) pour lesquels des modèles peuvent être estimés à partir de grands corpus d apprentissage. Le premier terme p(x m) correspond à la probabilité d observer le signal acoustique x, connaissant les mots m. Le deuxième terme P(m) donne une estimation de la probabilité a priori de la séquence de mots m, grâce à des modèles N-grammes (Bahl 1989, Jelinek 1991), qui reflètent des probabilités de cooccurrence de N mots dans la langue. Une troisième composante peut éventuellement se rajouter pour tenir compte des variantes de prononciation Φ détaillées dans un dictionnaire de prononciation : m = arg max m p(x Φ)P(Φ m) P(m) Dans ce cadre, les mots de la langue sont modélisés au niveau acoustique par des modèles de Markov cachés ou HMMs (Hidden Markov Models) (Rabiner 1989), formalisme qui s appuie sur des résultats mathématiques de Baum et collègues (Baum 1966, 1972). Un modèle acoustique de mot est obtenu par concaténation de modèles HMMs élémentaires, homogènes à des phonèmes (voir figure 1). Ceci permet alors la génération de modèles acoustiques pour n importe quel mot de la langue, pourvu que sa prononciation Φ soit connue. Les suites d états suivent la suite de phonèmes composant le mot, chaque état comprenant une somme de densités de probabilité acoustiques rendant compte de la variabilité observée pour le phonème en question dans le corpus audio.

4 Figure 1. Modèle acoustique de mot obtenu par concaténation de HMMs élémentaires correspondant aux phonèmes de la prononciation du mot. Afin de ne pas cumuler toutes les sources de variabilité énumérées ci-dessus, des HMMs spécifiques sont estimés en fonction des caractéristiques des locuteurs (p.ex. hommes, femmes) et en fonction des enregistrements (bande large, bande téléphonique) (Gauvain 1994). Chaque phonème de la langue sera modélisé par un jeu de HMMs distincts représentant des allophones de ce phonème en différents contextes gauche-droite (triphones, quinphones), afin de tenir compte des effets de coarticulation. Si le dictionnaire de prononciation contient des variantes, le modèle acoustique de mot, linéaire dans le cas de la figure 1, peut devenir un graphe intégrant toutes les variantes. Ce dictionnaire permet ainsi d expliciter des variantes non représentées implicitement dans les modèles. L ensemble des phrases possibles dans la langue est approché par des distributions probabilistes sous forme de chaînes markoviennes. Les modèles N-grammes (N=3,4) correspondent à des grammaires locales tenant compte implicitement des niveaux syntaxiques, sémantiques et pragmatiques. L estimation de ces modèles statistiques est faite à partir de corpus audio et textuels, ces derniers provenant en grande partie de sources écrites, mais également de parole transcrite. Ainsi des suites de mots très fréquents dans la langue, comme par exemple de la (comme dans le son de la harpe) auront une probabilité d apparition élevée, alors que des séquences a priori très peu probable comme la de resteront néanmoins possible (comme dans le la de l instrument) avec une très faible probabilité. 2.3 Loi de Zipf Les modèles statistiques nécessitent des corpus d autant plus importants que les événements à observer ne sont pas équiprobables. La loi de Zipf nous apprend que la fréquence d occurrence d un mot, en fonction de son rang de fréquence est une loi exponentielle. Plus simplement, ceci revient à dire que la langue possède peu de mots très fréquents et un très grand nombre de mots très rares. Modèles et études linguistiques fondés sur grands corpus permettent alors de représenter surtout les mots les plus fréquents et des techniques doivent être développés pour tenir compte des événements rares (Jelinek 1980, 1991). La figure 2 montre à gauche les comptes

5 d occurrence (nombre de tokens) des cent mille mots (types, formes fléchies) les plus fréquents triés par rang de fréquence. Les comptes sont mesurés dans des corpus de 30 millions de mots pour chaque langue: français anglais, allemand. La figure à droite, avec une échelle logarithmique pour les rangs de fréquence, illustre la loi de Zipf en situation multilingue. i Figure 2. La distribution des mots dans la langue suit une loi de Zipf. 2.4 Évaluation Actuellement un des principaux moteurs pour la recherche en transcription automatique de la parole est donné par les campagnes d évaluation. Lors d évaluations internationales ou nationales, il s agit de minimiser des taux d erreurs sur des données communes envoyées dans les différents laboratoires participants par des organismes indépendants : le NIST (National Institute of Standards and Technology) pour les évaluations ARPA américaines depuis plus de 15 ans, le TNO (Technical National Office, Soesterberg, Pays-Bas) dans les évaluations du projet européen LE-SQALE autour de 1995, l ICP de Grenoble lors de la première évaluation francophone en 1997 (mise en place par le soutien de l AUPELF) et le CTA/DGA Arcueil lors des évaluations actuelles ESTER dans le cadre du projet national TECHNOLANGUES du Ministère de la Recherche. Il s agit donc, d évaluation en évaluation, de démontrer les progrès obtenus dans les méthodes de décodage et de modélisation de la parole, par des taux d erreurs de plus en plus faibles. L étude des erreurs de transcription, qui accompagne ces évaluations, vise à identifier des points faibles de l ensemble {parole, système de transcription}. Ces points faibles peuvent correspondre à des écarts entre l observation et le modèle, ou à une modélisation incomplète. Les erreurs de transcription pointent souvent sur des phénomènes linguistiques pour lesquels les modélisations sont insuffisantes ou pour lesquels les connaissances associées ne sont que partiellement décrites et quantifiées. La table 1 illustre des problèmes de transcription typiques du français, notamment les homophones. Afin de pouvoir traiter des données journalistiques tout venant, des très grands vocabulaires sont nécessaires ( formes fléchies), ce qui implique également

6 des corpus de textes et de transcriptions d oral conséquents (facteur 10 entre 2005 et 1996). Table 1. Exemples d erreurs de transcription automatique extraits du corpus ESTER (dev04) illustrant des erreurs de substitution (S) et d omission (0) de séquences pratiquement homophones. ref: l aggrave et peut le tuer hyp: l aggraver Paul tués err: - S O S O S comment : homophones multi-mot quasi-homoph. homoph. /pøl / [p l] simple Pour les deux évaluations, effectuées sur des données de nature assez différente (lecture enregistrée en laboratoire, parole radiophonique de terrain) les taux d'erreur sont proches de 10%. Pour les conversations téléphoniques en français, qui correspondent à un vrai genre oral, les taux d erreur sont autour de 30%. Certes les conditions acoustiques sont moins bonnes et contribuent à augmenter les erreurs, mais les problèmes essentiels pour la parole conversationnelle concernent à la fois l estimation d un modèle de langage approprié au genre traité, et les prononciations des mots avec la modélisation acoustique associée. Des problèmes supplémentaires concernent l établissement d une transcription de référence dans des zones de parole disfluente ou simplement mal articulée ainsi qu en cas de locuteurs multiples (overlap). Pour la langue anglaise la figure 3 (d après Pallett 2003) résume les campagnes d évaluation organisées méthodiquement aux États-Unis depuis presque 20 ans afin de repousser les défis posés par la parole. Les taux d erreurs de mots sont représentés sur une échelle logarithmique au cours du temps. On peut voir des résultats sur des types de tâches de plus en plus complexes. Les différentes courbes, représentant chacune un type de tâche, décroissent toutes au cours du temps, démontrant ainsi les progrès accomplis. Ainsi on passe au fil du temps de lecture à de la parole naturelle, d enregistrements de laboratoire à de la parole de terrain, de vocabulaires limités à des grands vocabulaires permettant une grande liberté d expression aux utilisateurs, de bande large à bande téléphonique.

7 Taux d erreur CTS "conversationnel" conversationnel telephone speech terrain BN 20 65k mots, "préparé" broadcast news terrain WSJ 20k mots, lecture WSJ 5k mots, lecture Wall Street Journal labo ATIS "spontané" infos trafic aérien labo RM 1000 mots, lecture bataille navale labo date Figure 3. Taux d erreurs de mots au cours du temps pour la langue anglaise. Les différentes courbes représentent différentes tâches: lecture de phrases (RM, WSJ), demandes spontanées d informations (ATIS) (parole de laboratoire), journaux radio- et télédiffusés et conversations téléphoniques (parole de terrain). Dans la section suivante nous discuterons des corpus pour le traitement automatique de l oral, en rappelant pour quels défis méthodologiques ou pour quel type de modélisation de variabilité ils étaient conçus. 2. Corpus pour le traitement automatique de l oral Nous allons donner ici quelques exemples significatifs concernant la production de corpus oraux pour la reconnaissance automatique de la parole. Cette production s est faite à des degrés divers dans les différents pays travaillant sur le TAO (France, Etats-Unis, Angleterre, Allemagne, Pays-Bas, Italie, Espagne, Grèce et plus récemment les pays asiatiques). Pour les langues européennes cette production a souvent été soutenue par des projets européens et trans-nationaux (corpus CGN pour les néerlandophones de Belgique et des Pays-Bas). Au niveau national une partie importante de la production de corpus est soutenue par la défense (ARPA Advanced Reasearch Project Agency aux États-Unis, DGA (Délégation Générale à l Armement en France). Les efforts énormes déployés pour la production de corpus, et de manière générale, sur les ressources linguistiques (dictionnaires de prononciation, dictionnaires multilingues, corpus étiquetés et enrichis avec des classes grammaticales, des entités nommées, corpus alignés multilingues) ont vu la naissance d agences de soutien au développement et à la distribution de corpus. Ainsi en 1992 le LDC (Linguistic Data Consortium) a été créé à l Université de Pennsylvanie, avec le soutien du DARPA et du NSF (national science foundation). En 1995 la France a été motrice dans la création de ELRA (European Linguistic Resources Association) à Paris, visant à la validation, gestion et distribution de

8 ressources de parole, texte et terminologie. Comme évoqué dans la section précédente, des corpus de plus en plus complexes ont été produits pour étudier des questions précises et pour faire reculer les défis posés par la parole et de manière plus générale par l oral. On peut schématiser l évolution dans les besoins de corpus au cours du temps : 1) des corpus de parole pour la modélisation acoustique p(x m), avec un nombre de locuteurs de plus en plus grand dans des conditions variées. 2) collecte de corpus d écrit pour la modélisation dite linguistique P(m). 3) création de corpus d oral transcrit afin d obtenir des modèles P(m) représentant davantage le genre oral que l écrit. Ainsi depuis la fin des années cinquante jusqu au début des années soixante-dix la question de fond était: est-il possible de retrouver à partir d un signal acoustique, le mot prononcé ou les phonèmes contenus dans le mot? Cette question porte en elle au moins deux approches différentes, une holostique, l autre analytique. On se rend facilement compte de l intérêt potentiel de l approche analytique pour de nombreuses disciplines SHS qui s intéressent à la variation et aux invariants: phonétique, phonologie, psychoacoustique, psycholinguistique La reconnaissance de la parole était vue essentiellement soit comme un problème de reconnaissance des formes, soit comme un problème de système-expert, avec comme problèmes sousjacents: quels paramètres acoustiques pour décrire ces formes, quelles unités pour les modéliser côté reconnaissance des formes, quelles connaissances utiliser pour identifier les phonèmes côté systèmes-experts, comment tenir compte du problème des distorsions spectrales et temporelles observées entre deux répétitions d un même énoncé par un même locuteur? Il est clair que pour aborder ces questions élémentaires, il valait mieux se focaliser sur quelques énoncés simples. La production de corpus de parole restait essentiellement dépendante d initiatives individuelles de chercheurs. Un locuteur, tout au mieux deux, trois, enregistraient quelques mots ou phrases simples en laboratoire, avec une prédilection pour les chiffres, les lettres et les nombres. En effet la reconnaissance des chiffres et des lettres, tout en délimitant des vocabulaires très restreint, pose les défis scientifiques pertinents et permet déjà d envisager un nombre d applications de reconnaissance, comme les codes postaux, les numéros de téléphone... Dans ce contexte fut lancé au début des années 70 le programme ARPA-SUR Speech Understanding Research. Il faut rappeler que la compréhension de la parole n était qu un volet de programmes de recherche sur la langue avec, au départ, une motivation forte pour la traduction automatique dans un contexte politique de guerre froide. Les grands laboratoires américains (notamment CMU et BBN) ont participé à ce programme qui visait la compréhension de phrases simples construites avec un vocabulaire d environ 1000 mots sans trop de spécifications. Alors que les résultats étaient globalement décevants, des conclusions importantes pour la direction des recherches futures au niveau international en découlent, même si leur mise en place a pris environ dix ans. Ces conclusions furent d abord qu il faut séparer la reconnaissance automatique de la compréhension, eu égard à la complexité du problème. D autre part, afin de produire des résultats comparables et interprétables, les différents chercheurs doivent se mettre à travailler sur des tâches et des corpus partagés avec une

9 évaluation commune sur des données nouvelles. À partir des années quatre-vingts, des premières grandes initiatives de collectes de corpus apparaissent. En 1984 le DARPA lance un programme Speech and Natural Language s attaquant aux problèmes majeurs de la coarticulation et de la variabilité interlocuteur. Il s agit d enregistrer des centaines de personnes, hommes et femmes, lisant des phrases garantissant une bonne couverture phonémique. Le but est d obtenir des modèles acoustiques de phones génériques, capables de représenter n importe quel vocabulaire et n importe quel locuteur. Des efforts semblables sont lancés en Europe et notamment en France avec les projets BDSONS et BREF (Lamel 1991), ce dernier étant déjà clairement tourné vers le domaine journalistique. La table 2 rappelle quelques-unes de ces initiatives. Table 2. Exemples de corpus de parole crées pour le TA0. Les langues (L) sont anglais (A) et français (F). date style nom L #loc. vol. responsables chiffres 1982 lecture TI-digits A 111h/114f 12h Texas labo 50ga/51fi Instruments 1988 lecture EUROM 7L 30h/30f CE SAM phrases phonémiquement équilibrées labo EUROM 7L per L 1989 lecture TIMIT A 630 8h MIT, SRI labo 8 TI DARPA-NIST dialectes 1989 lecture BDSONS F 32 ICP, GDR-PRC CHM labo CE SAM informations trafic aérien 1990 spontané ATIS A 567 k*10h BBN, CMU, MIT téléphone SRI, NIST journaux 1990 lecture BREF F 55h/65f 100h LIMSI, GDR-PRC CHM labo Le Monde AUPELF, CE Polyglot 1990 lecture WSJ A 162h TI, NIST labo Wall Street J préparé BN A 250h LDC, NIST terrain radio/télé BBN 2005 préparé ESTER F 100h DGA, ELRA terrain radio AFCP, LIMSI Les corpus lus présentent pour le traitement automatique l intérêt de disposer d une version transcrite de l oral a priori, mais comme nous l avons souligné dès le départ, on n est pas ici dans un vrai genre oral, mais simplement dans de l écrit

10 oralisé. Les premiers grands corpus oraux sans modalité écrite préexistante sont enregistrés sur des tâches limitées, visant à implémenter des services téléphoniques de renseignements (ATIS aux États-Unis, projets avec la SNCF, avec le CNET en France). De telles tâches impliquent de fait l usage d une phraséologie très limitée, même si les locuteurs peuvent s exprimer librement. En particulier le vocabulaire reste très restreint en dehors des entités spécifiques (noms de villes par exemple). Ces corpus posent le problème de création de transcriptions manuelles de référence à grande échelle, et les travaux des linguistes de l oral ont été précieux pour mettre au point des conventions de transcription (Blanche-Benveniste 1999). Depuis les années 1995 avec les recherches sur la parole journalistique des centaines, voire des milliers d heures d oral préparé journalistique ont pu être transcrites manuellement. Cet effort a été fortement soutenu par les agences militaires (ARPA, DGA) et les agences de distribution de ressources linguistiques (LDC, ELRA). Des logiciels dédiés à la transcription manuelle, en particulier TRANSCRIBER (Barras 2001), ont été développés en intelligence commune entre les États-Unis et la France. Ce logiciel libre est d ailleurs utilisé largement au-delà du TAO par des linguistes de l oral ou des psycholinguistes s intéressant par exemple à l acquisition du langage. 3. Études linguistiques Nous conclurons cette contribution, en esquissant quelques études linguistiques s appuyant sur les corpus oraux collectés pour le TAO et les systèmes de transcription comme instruments de mesure (Adda-Decker 2006, Habert 2005). Même si les corpus ont été collectés avec des critères, où les exigences technologiques ont primé sur les critères linguistiques, des études quantitatives peuvent venir affiner nos connaissances en phonétique, phonologie, prosodie,... et dresser un tableau plus précis de la variation à l oral (Delattre 1966). Comme évoqué dans les sections précédentes, les erreurs de transcription peuvent pointer sur des problèmes de modélisation des prononciations : oubli d une liaison (Encrevé 1998), d une forme contractée usuelle... Les travaux en TAO menés sur différents styles de parole démontrent un besoin crucial de corpus de parole spécifique, afin de garantir une bonne modélisation acoustique des mots. Ce résultat suggère que les prononciations changent de manière importante avec le style de parole (lecture ou spontané, parole publique ou privée), sans oublier que de grands corpus d oral transcrit et avec balises temporelles permettent de faire grand nombre de travaux de phonétique expérimentale afin de valider des théories et modèles existants. De plus, des corpus conçus et collectés par des linguistes peuvent venir enrichir ces études. Notamment le corpus PFC (Durand 2003) (Phonologie du français contemporain), qui rassemble des centaines d heures de parole (lecture et entretiens) collectées dans des dizaines de points d enquête de l espace francophone, permet d étudier l influence du style de parole et de l accent régional sur la production langagière (inventaire phonémique, réalisations des phonèmes, schwa et liaison, variantes de prononciation, lexique...) (Fougeron 2001, Boula de Mareuil 2003). 3.1 Voyelles et formants Dans une collaboration avec le LPP de l université Paris 3 (Gendrot 2005), nous

11 avons pu mesurer, à partir de 70 heures de corpus journalistique, les formants des voyelles à partir d une segmentation et d un étiquetage phonémique automatique. Les valeurs des formants, extraits automatiquement à l aide de Praat (Boersma 2001) ont été calculées en fonction de leur durée (durée>80ms, durée entre 60 et 80ms, durée<60ms). La figure 4 montre un mouvement globalement centripète (centralisation) avec une durée segmentale décroissante. Ces résultats permettent à la fois de confirmer les résultats connus sur la dépendance entre durée et formants (Lindblom 1963), et d établir des valeurs de formants moyens pour le français journalistique, qui peut être considéré comme un parler de référence. Figure 4. Valeurs moyennes des formants F1 et F2 des voyelles orales du français en fonction d une durée segmentale décroissante. 3.2 Vers une phonologie de corpus Les recherches en traitement automatique de la parole concernent le côté signifiant de la langue (dans la terminologie de Saussure), l autre face du signe linguistique, le signifié, n est pas abordée. La reconnaissance automatique de la parole, vise à convertir le signal acoustique (le signifiant acoustique) en signal graphémique (signifiant écrit). La variabilité phonétique observée dans le signal acoustique devrait pouvoir être ignorée, afin de recouvrer la suite de mots prononcée via une prononciation standard. Cette problématique s apparente au moins partiellement à celle des premiers phonologues de la fin 19e et début du 20e siècle, comme Baudouin de Courtenay, Saussure ou Troubetzkoy : distinguer deux phonétiques descriptives distinctes, suivant qu on veut étudier les sons phoniques comme des signaux physiques (phonétique) ou comme des éléments abstraits, sons distinctifs d un système linguistique (phonologie). La notation phonologique, très économique, permet d associer à chaque mot une prononciation canonique. La linéarité du signifiant acoustique (déroulement dans le temps) entraîne que les éléments se présentent a priori les uns après les autres : ils forment une chaîne. Cette représentation phonologique sous forme de chaîne de

12 phonèmes est utilisée pour la modélisation acoustique des mots en reconnaissance automatique de la parole. A cette représentation sont alors associés des modèles de Markov cachés à mélange de gaussiennes permettant de rendre compte de la variation phonétique effectivement observée dans le signal physique. Si cette modélisation s est montré efficace pour une parole bien articulée (lecture, parole journalistique), le traitement d une parole plus spontanée, plus relâchée pose des problèmes : les prononciations observées peuvent avoir un contenu très différent de la forme canonique : des phonèmes, des syllabes entières peuvent disparaître (Adda-Decker 2005). Il apparaît que dans la parole, tous les phonèmes ne sont pas articulés avec la même précision. Ceci n est pas toujours lié à la nature du phonème (comme pour le schwa), mais souvent à sa fonction dans le message parlé. Il apparaît dans les corpus que les mots fréquents et/ou à forte redondance sont souvent peu articulés, voire inexistants dans certains cas extrêmes. Il semble que si l information est donnée, soit par le niveau syntaxique, soit par le niveau pragmatique, alors le niveau acoustique n a pas besoin d être très complet. Nous manquons à l heure actuelle d une description détaillée de ces phénomènes. Gagner une vision plus claire des mécanismes de variation contribuera en retour à relever le défi posé par ces ruptures de chaîne en TAO. Figure 5. Le traitement automatique de la parole permet de filtrer de grands corpus afin d extraire des sous-corpus de parole répondant au phénomène étudié (e.g. prononciations non-standard, liaison, schwa, assimilation...). Ce défi consiste alors à pouvoir proposer des modèles acoustiques de mots plus courts que ceux générés par une modélisation phonologique standard et l hypothèse est que les raccourcissements ne se font pas au hasard. À cause de la loi de Zipf (voir section 1), la solution qui vise à simplement apprendre les variantes de prononciations à partir des observations dans de gigantesques corpus paraît peu réaliste et la recherche de principes généraux sous-jacents est plus stimulante. Les notions de syllabes accentuées et inaccentuées semblent pertinentes. Ces observations nous amènent à porter un intérêt grandissant vers l étude et la modélisation de la prosodie. Pour augmenter nos connaissances autour de ces questions, nous pouvons utiliser les systèmes de transcription comme outil d analyse, afin de qualifier et de quantifier ces phénomènes de sous-articulations et de réductions (Duez 2003), appelés métaplasmes. La figure 6 montre deux spectrogrammes du même bigramme de mots Premier Ministre, à gauche une prononciation canonique maximale /p œmje minist / et à droite une réalisation de

13 type métaplasme qui peut être transcrit approximativement comme [prœmimiz] avec une assimilation régressive du /s/ final dans le contexte droit britannique. Les régularités de ces phénomènes restent à être établies. Ceci nous amène à formuler des questions à l adresse des linguistes et plus particulièrement des phonologues, qui ont gardé un ancrage avec l aspect phonétique de la parole et qui s intéressent aux observations de terrain. Le traitement automatique de la parole est confronté en permanence à l aspect performance de la langue dans l acception chomskyienne du terme et cette confrontation contribuera, nous l espérons, à l augmentation des connaissances sur la langue orale. Figure 6. Variantes de prononciation pour la séquence de mots Premier Ministre produites par deux hommes politiques dans le même contexte d une émission d interviews télévisée. 4. Conclusion Les progrès accomplis en traitement automatique permettent d aborder bon nombre de recherches sous un angle nouveau. La disponibilité de corpus et d instruments pour l accès au contenu permet de poser un nombre élevé de questions en même temps et d avoir très vite, si ce n est une réponse, au moins une tendance. Nous vivons actuellement une révolution technologique qui permet d enrichir le domaine de la linguistique de l oral de nouveaux instruments et de méthodologies expérimentales exploitant de grands corpus (Habert 2005). L ère chomskyenne a rendu pendant des décennies l usage de corpus en linguistique pour le moins suspect, si ce n est hors sujet. Sans vouloir rentrer dans des polémiques scientifiques, force est de constater que nous sommes aujourd hui à un tel point d accès facile à des données orales qu il serait non scientifique de refuser l étude de

14 ces données, dont le corpus ESTER est certainement un exemple important pour le français. De telles études nous pouvons espérer dégager de nouvelles connaissances sur la langue orale et les performances des locuteurs en lien avec la neuro- et psycho-linguistique. Ces connaissances seront à terme certainement utiles pour les systèmes de traitement automatique de la parole au sens large, incluant au-delà de la transcription, des problématiques comme l identification des locuteurs, des langues et des accents, la synthèse, la compréhension et le dialogue. Notre conviction est qu une connaissance plus approfondie de l oral et des mécanismes à l œuvre dans la parole contribuera en définitive à améliorer les modélisations pour le TAO. Remerciements Une partie des travaux et résultats décrits a été soutenue par des projets interministériel TECHNOLANGUE-ESTER, CNRS TCAN Varcom, ANR PFC-Cor et par des projets européens CHIL et TC-STAR. Références Adda-Decker, M. et al. (2005), Investigating syllabic structures and their variation in spontaneous French, Speech Communication, 46, pp , Elsevier ed. Adda-Decker, M. (2006), De la reconnaissance automatique de la parole à l'analyse linguistique de corpus oraux, XXVIèmes Journées d'études sur la Parole. Bahl, L. et al. (1989), A tree-based statistical language model for natural language speech recognition, IEEE Transactions on Acoustic, Speech and Signal Processing, 37(7): Baker, J. M. (1975) The DRAGON system - an overview, IEEE Transactions on Acoustics, Speech, and Signal Processing, 23(1): Barras, C. et al. (2001), Transcriber: development and use of a tool for assisting speech corpora production. Speech Communication, 33(1-2):5-22. Baude, O. (2006) Corpus Oraux - guide des bonnes pratiques, CNRS édition. Baum, L., Petrie, T. (1966), Statistical inference for probabilistic functions of finite state Markov chains, Annals of Mathematical Statistics, 37: Baum L. (1972), An inequality and associated maximization technique in statistical estimation for probabilistic functions of a Markov process,,inequalities, 3:1-8. Bellman, R.E. (1957) Dynamic Programming, Princeton, NJ, Princeton Univ. Press. Blanche-Benveniste, C. (1999), Constitution et exploitation d un grand corpus, Revue française de linguistique appliquée, IV-1 (65-74). Boersma, P. (2001) PRAAT, a system for doing phonetics by computer. Glot

15 International 5(9/10): Boula de Mareüil, P. et al. (2003), Liaisons in French: a corpus-based study using morpho-syntactic information. In Proceedings of the International Conference on Phonetic Sciences, ICPhS, Barcelone. Davis et al. (1952), Automatic Recognition of Spoken Digits, JASA, vol. 24 no. 6. Delattre, P. (1966) Studies in French and Comparative Phonetics, La Haye, Mouton. Dolmazon, J.M. et al. (1997), Organisation de la première campagne AUPELF pour l évaluation des systèmes de dictée vocale, JST97, Avignon. Dreyfus-Graf, J. (1972), Parole codée (phonocode) : reconnaissance automatique de langages naturels et artificiels, Revue d Acoustique, no. 21, pp Duez, D. (2003), Modelling Aspects of Reduction and Assimilation in Spontaneous French Speech, In Proc. IEEE-ISCA Workshop on Spontaneous Speech Processing and Recognition. Durand, J. et al. (2003), Le projet Phonologie du français contemporain (PFC). La Tribune Internationale des Langues Vivantes Encrevé, P. (1988), La liaison avec et sans enchaînement. Phonologie tridimensionnelle et usages du français. Éditions du Seuil, Paris. Forney, G. D. (1973). The Viterbi algorithm, Proc. of the IEEE, 61(3): Fouché, P. (1959), Traité de prononciation française. Editions Klincksieck, Paris. Fougeron, C. et al. (2001), Liaison and schwa deletion in French: an effect of lexical frequency and competition, Eurospeech, Aalborg (pp ). Galliano, S. et al. (2005), The ESTER Phase II Evaluation Campaign for the Rich Transcription of French Broadcast News, Eurospeech-Interspeech, Lisbonne. Gauvain, JL, Lee, CH. (1994), Maximum a posteriori estimation for multivariate Gaussian mixture observations of Markov chains, IEEE Transactions on Speech and Audio Processing, 2(2): Gauvain, J-L. et al. (2005), Where Are We In Transcribing French Broadcast News?, Eurospeech-Interspeech, Lisbonne. Gendrot, C. Adda-Decker, M. (2005), Impact of duration on F1/F2 formant values of oral vowels: an automatic analysis of large broadcast news corpora in French and German, Eurospeech-Interspeech, Lisbonne,.

16 Habert, B. (2005), Portrait de linguiste(s) à l instrument, Texto! Textes et cultures, ISSN , Vol. X, n.4. Lamel, L.F. et al. (1991), BREF, a Large Vocabulary Spoken Corpus for French, EuroSpeech 91. Jelinek, F. (1976), Continuous speech recognition by statistical methods, Proc. of the IEEE, 64(4): Jelinek, F., Mercer, R. (1980). Interpolated estimation of Markov source parameters from sparse data, Proceedings of an International Workshop on Pattern Recognition in Practice, Amsterdam, The Netherlands. North-Holland. Jelinek, F. (1991), Self-organized language modeling for speech recognition, In Waibel&Lee, eds, Readings in Speech Recognition, pp Morgan Kaufmann. Lindblom B. (1963), Spectrogaphic study of vowel reduction, Journal of the Acoustical Society of America, Vol. 35, pp Mariani, J., Paroubek, P. (1999), Human Language Technologies Evaluation in the European Framework, Proc. of the DARPA Broadcast News Workshop, Washington, Morgan Kaufman Publishers, ISBN , pp Mariani J. (2005), Developing Language Technologies with the Support of Language Resources and Evaluation Programs, Language Resources and Evaluation, 39(1):35-44, Pallett D. S. (2003), A Look at NIST s Benchmark ASR Tests: Past, Present, and Future, Proc. of the IEEE Workshop Automatic Speech Recognition and Understanding, St. Thomas, les Vierges, Etats-Unis. Rabiner, L. R. (1989), A tutorial on hidden Markov models and selected applications in speech recognition, Proceedings of the IEEE, 77(2): Wiren-Stubbs (1956), Electronic binary selection system for phoneme classification, JASA, vol. 28, pp