CORPUS POUR LA TRANSCRIPTION AUTOMATIQUE DE L ORAL Martine Adda-Decker Laboratoire d Informatique pour la Mécanique et les Sciences de l Ingénieur
|
|
- Alizée Marion
- il y a 8 ans
- Total affichages :
Transcription
1 CORPUS POUR LA TRANSCRIPTION AUTOMATIQUE DE L ORAL Martine Adda-Decker Laboratoire d Informatique pour la Mécanique et les Sciences de l Ingénieur LIMSI/CNRS (UPR351), BP ORSAY cedex France Résumé Cette contribution vise à illustrer la réalisation et l utilisation de corpus à des fins de recherche en transcription automatique de la parole. Ces recherches s appuyant largement sur une modélisation statistique, s accompagnent naturellement de production de corpus écrits et de corpus oraux transcrits ainsi que d outils facilitant la transcription manuelle. Les méthodes et techniques mises au point permettent aujourd hui un déploiement vers le traitement automatique de l oral à grande échelle, tout en contribuant à un domaine de recherche interdisciplinaire émergeant : la linguistique des corpus oraux. Abstract This contribution aims at giving an overview of automatic speech recognition research, highlighting the needs for corpora development. As recognition systems largely rely on statistical approaches, large amounts of both spoken and written corpora are required. In order to fill the gap between written and spoken language, speech transcripts need to be produced manually using dedicated tools. Methods and resources accumulated over years now allow, not only to tackle genuine oral genres, but also to envision large-scale corpus studies to increase our knowledge of spoken language, as well as to improve automatic processing. Mots-clés : transcription automatique, modélisation statistique, linguistique de corpus oraux 1. Introduction Le traitement automatique de l oral (TAO), qui se développe depuis environ cinquante ans, a pris progressivement appui sur des corpus de parole de plus en plus grands et complexes. Depuis les premiers travaux (Davis 1952,Wiren-Stubbs 1956, Dreyfus-Graf 1972) qui visaient à identifier quelques phonèmes en utilisant des formants, des traits distinctifs ou globalement des mots en se basant sur les propriétés spectrales au cours du temps, les chercheurs du domaine sont passés d enregistrements contrôlés de quelques voyelles ou d une dizaine de mots prononcés de manière isolée par un locuteur sélectionné, à l exploitation de milliers d heures de locuteurs inconnus dans des conditions variées, d autant plus facilement accessibles, que radios et chaînes numériques sont en plein essor sur internet. Les progrès technologiques, ordinateurs en réseau de plus en plus performants avec des capacités de stockage toujours croissants, ne sont certainement pas la seule explication. L évaluation systématique (Mariani 2005, Pallett 2003, Galliano 2005, Dolmazon 1997) des moteurs de reconnaissance dans le cadre de grandes campagnes nationales, européennes et internationales a été érigée en paradigme puissant soutenant efficacement les progrès constants mesurés au cours du temps, grâce notamment à la production de corpus communs partagés par la communauté scientifique. Nous aborderons la raison pour laquelle le traitement automatique de la parole, et en particulier la transcription automatique, sont aussi gourmands en corpus oraux, mais également en ressources écrites et en transcriptions de l oral. Nous allons voir que les premières décennies ont permis d abord de prendre progressivement conscience de la complexité du phénomène parole, et de
2 développer méthodes, techniques et ressources permettant de traiter efficacement la parole correspondant surtout à de l écrit oralisé. Pouvant s appuyer sur un éventail de méthodes mathématiques, statistiques, informatiques très puissantes, les chercheurs sont aujourd hui mieux équipés pour s attaquer efficacement au traitement automatique de l oral, qui pose de nombreux défis au-delà de l écrit oralisé. Dans ce qui suit nous allons présenter dans la section 1 la problématique de transcription automatique de la parole, les sources de variabilité contribuant à la nature stochastique du signal de parole, ainsi que les méthodes de modélisation utilisées. Dans la section 2 nous allons décrire la production de corpus pour le TAO au cours du temps, tout en discutant des progrès accomplis. Notre volonté n est certainement pas d être exhaustif ici, mais de donner des exemples représentatifs. La production de corpus, facilitée par des outils dédiés (Barras 2001) et de conventions de transcription (Blanche-Benveniste 1999), aujourd hui toujours active, peut-être plus que jamais, s explique par les défis actuels du domaine: la transcription de l oral dans sa diversité, incluant différents contextes de communication, publics et privés, des locuteurs à accents régionaux ou étrangers, la parole en situation de stress ou d autres types d émotions, dialogues ou conversations à plusieurs... Dans une dernière partie, nous allons esquisser des recherches à visée plus linguistiques s appuyant sur les corpus oraux produits au cours du temps, avec les systèmes de transcription adaptés comme instruments de mesure (Habert 2005). 2. Reconnaissance automatique de la parole Les besoins de corpus en TAO sont différents de ceux des disciplines rattachées aux sciences de l homme s intéressant à l oral (phonétique, phonologie, sociolinguistique, psycholinguistique, ethnologie, anthropologie, pragmatique ) (Baude 2006). En particulier, pour la reconnaissance automatique de la parole les corpus sont conçus d abord pour répondre à des défis scientifiques et méthodologiques posés par la grande variabilité du signal acoustique de parole, ensuite pour couvrir au mieux un type d application. Il se trouve qu au fur et à mesure des progrès accomplis, les corpus produits revêtent un intérêt grandissant pour des études à caractère linguistique, dans la mesure où le type de parole étudiée, rejoint de plus en plus l oral naturel. À l inverse les corpus conçus par les linguistes peuvent venir enrichir les ressources pour le TAO (Durand 2003, Baude 2006). 2.1 Défis posés par le signal de parole Quels sont les problèmes posés par la parole en tant que signal physique continu avant de pouvoir être transformé en signe linguistique discret (signifiant d après la terminologie de Saussure)? Il est communément admis que la parole est très variable, les différents facteurs responsables sont à peu près connus. 1- De manière générale il n y a pas de frontières détectables entre les mots et les frontières de phonèmes sont souvent peu évidentes. La réalisation acoustique d un phonème dépend fortement de son contexte phonémique gauche-droite. 2- Le signal de parole varie en fonction du locuteur (sexe, âge, émotions, accent, ). 3- Les conditions d enregistrement et le bruit de fond se superposent à la parole dans l enregistrement. 4- Le style de parole (lue, préparée, spontanée...) influe fortement sur le débit, la
3 prosodie, la précision de l articulation, les variantes de prononciations (Fouché 1959). De même la situation (parole publique ou privée; monologue ou dialogue, familier ou formel) et l information portée par le contexte jouent un rôle important sur le choix des mots et leur prononciation. Le sujet abordé influe surtout sur le vocabulaire utilisé. 2.2 Modélisation statistique La transcription automatique de la parole, qui vise à convertir un signal acoustique de parole en suite de mots, repose largement sur une modélisation statistique de la parole (Jelinek 1976, Baker 1975). La reconnaissance de la parole, consiste à déterminer la meilleure suite de mots m à partir de l observation acoustique x. Avec l approche statistique ce problème repose alors sur la formule de Bayes : m = arg max m P(m x) = arg max m p(x m) P(m) Le décodeur (correspondant ici à l opérateur arg max, et reposant sur le principe de programmation dynamique (Bellman 1957, Forney 1973)) doit mesurer la probabilité de toutes les suites de mots m possibles pour ce signal :P(m x). Le problème se transforme grâce à la formule de Bayes en une optimisation à deux termes p(x m) P(m) pour lesquels des modèles peuvent être estimés à partir de grands corpus d apprentissage. Le premier terme p(x m) correspond à la probabilité d observer le signal acoustique x, connaissant les mots m. Le deuxième terme P(m) donne une estimation de la probabilité a priori de la séquence de mots m, grâce à des modèles N-grammes (Bahl 1989, Jelinek 1991), qui reflètent des probabilités de cooccurrence de N mots dans la langue. Une troisième composante peut éventuellement se rajouter pour tenir compte des variantes de prononciation Φ détaillées dans un dictionnaire de prononciation : m = arg max m p(x Φ)P(Φ m) P(m) Dans ce cadre, les mots de la langue sont modélisés au niveau acoustique par des modèles de Markov cachés ou HMMs (Hidden Markov Models) (Rabiner 1989), formalisme qui s appuie sur des résultats mathématiques de Baum et collègues (Baum 1966, 1972). Un modèle acoustique de mot est obtenu par concaténation de modèles HMMs élémentaires, homogènes à des phonèmes (voir figure 1). Ceci permet alors la génération de modèles acoustiques pour n importe quel mot de la langue, pourvu que sa prononciation Φ soit connue. Les suites d états suivent la suite de phonèmes composant le mot, chaque état comprenant une somme de densités de probabilité acoustiques rendant compte de la variabilité observée pour le phonème en question dans le corpus audio.
4 Figure 1. Modèle acoustique de mot obtenu par concaténation de HMMs élémentaires correspondant aux phonèmes de la prononciation du mot. Afin de ne pas cumuler toutes les sources de variabilité énumérées ci-dessus, des HMMs spécifiques sont estimés en fonction des caractéristiques des locuteurs (p.ex. hommes, femmes) et en fonction des enregistrements (bande large, bande téléphonique) (Gauvain 1994). Chaque phonème de la langue sera modélisé par un jeu de HMMs distincts représentant des allophones de ce phonème en différents contextes gauche-droite (triphones, quinphones), afin de tenir compte des effets de coarticulation. Si le dictionnaire de prononciation contient des variantes, le modèle acoustique de mot, linéaire dans le cas de la figure 1, peut devenir un graphe intégrant toutes les variantes. Ce dictionnaire permet ainsi d expliciter des variantes non représentées implicitement dans les modèles. L ensemble des phrases possibles dans la langue est approché par des distributions probabilistes sous forme de chaînes markoviennes. Les modèles N-grammes (N=3,4) correspondent à des grammaires locales tenant compte implicitement des niveaux syntaxiques, sémantiques et pragmatiques. L estimation de ces modèles statistiques est faite à partir de corpus audio et textuels, ces derniers provenant en grande partie de sources écrites, mais également de parole transcrite. Ainsi des suites de mots très fréquents dans la langue, comme par exemple de la (comme dans le son de la harpe) auront une probabilité d apparition élevée, alors que des séquences a priori très peu probable comme la de resteront néanmoins possible (comme dans le la de l instrument) avec une très faible probabilité. 2.3 Loi de Zipf Les modèles statistiques nécessitent des corpus d autant plus importants que les événements à observer ne sont pas équiprobables. La loi de Zipf nous apprend que la fréquence d occurrence d un mot, en fonction de son rang de fréquence est une loi exponentielle. Plus simplement, ceci revient à dire que la langue possède peu de mots très fréquents et un très grand nombre de mots très rares. Modèles et études linguistiques fondés sur grands corpus permettent alors de représenter surtout les mots les plus fréquents et des techniques doivent être développés pour tenir compte des événements rares (Jelinek 1980, 1991). La figure 2 montre à gauche les comptes
5 d occurrence (nombre de tokens) des cent mille mots (types, formes fléchies) les plus fréquents triés par rang de fréquence. Les comptes sont mesurés dans des corpus de 30 millions de mots pour chaque langue: français anglais, allemand. La figure à droite, avec une échelle logarithmique pour les rangs de fréquence, illustre la loi de Zipf en situation multilingue. i Figure 2. La distribution des mots dans la langue suit une loi de Zipf. 2.4 Évaluation Actuellement un des principaux moteurs pour la recherche en transcription automatique de la parole est donné par les campagnes d évaluation. Lors d évaluations internationales ou nationales, il s agit de minimiser des taux d erreurs sur des données communes envoyées dans les différents laboratoires participants par des organismes indépendants : le NIST (National Institute of Standards and Technology) pour les évaluations ARPA américaines depuis plus de 15 ans, le TNO (Technical National Office, Soesterberg, Pays-Bas) dans les évaluations du projet européen LE-SQALE autour de 1995, l ICP de Grenoble lors de la première évaluation francophone en 1997 (mise en place par le soutien de l AUPELF) et le CTA/DGA Arcueil lors des évaluations actuelles ESTER dans le cadre du projet national TECHNOLANGUES du Ministère de la Recherche. Il s agit donc, d évaluation en évaluation, de démontrer les progrès obtenus dans les méthodes de décodage et de modélisation de la parole, par des taux d erreurs de plus en plus faibles. L étude des erreurs de transcription, qui accompagne ces évaluations, vise à identifier des points faibles de l ensemble {parole, système de transcription}. Ces points faibles peuvent correspondre à des écarts entre l observation et le modèle, ou à une modélisation incomplète. Les erreurs de transcription pointent souvent sur des phénomènes linguistiques pour lesquels les modélisations sont insuffisantes ou pour lesquels les connaissances associées ne sont que partiellement décrites et quantifiées. La table 1 illustre des problèmes de transcription typiques du français, notamment les homophones. Afin de pouvoir traiter des données journalistiques tout venant, des très grands vocabulaires sont nécessaires ( formes fléchies), ce qui implique également
6 des corpus de textes et de transcriptions d oral conséquents (facteur 10 entre 2005 et 1996). Table 1. Exemples d erreurs de transcription automatique extraits du corpus ESTER (dev04) illustrant des erreurs de substitution (S) et d omission (0) de séquences pratiquement homophones. ref: l aggrave et peut le tuer hyp: l aggraver Paul tués err: - S O S O S comment : homophones multi-mot quasi-homoph. homoph. /pøl / [p l] simple Pour les deux évaluations, effectuées sur des données de nature assez différente (lecture enregistrée en laboratoire, parole radiophonique de terrain) les taux d'erreur sont proches de 10%. Pour les conversations téléphoniques en français, qui correspondent à un vrai genre oral, les taux d erreur sont autour de 30%. Certes les conditions acoustiques sont moins bonnes et contribuent à augmenter les erreurs, mais les problèmes essentiels pour la parole conversationnelle concernent à la fois l estimation d un modèle de langage approprié au genre traité, et les prononciations des mots avec la modélisation acoustique associée. Des problèmes supplémentaires concernent l établissement d une transcription de référence dans des zones de parole disfluente ou simplement mal articulée ainsi qu en cas de locuteurs multiples (overlap). Pour la langue anglaise la figure 3 (d après Pallett 2003) résume les campagnes d évaluation organisées méthodiquement aux États-Unis depuis presque 20 ans afin de repousser les défis posés par la parole. Les taux d erreurs de mots sont représentés sur une échelle logarithmique au cours du temps. On peut voir des résultats sur des types de tâches de plus en plus complexes. Les différentes courbes, représentant chacune un type de tâche, décroissent toutes au cours du temps, démontrant ainsi les progrès accomplis. Ainsi on passe au fil du temps de lecture à de la parole naturelle, d enregistrements de laboratoire à de la parole de terrain, de vocabulaires limités à des grands vocabulaires permettant une grande liberté d expression aux utilisateurs, de bande large à bande téléphonique.
7 Taux d erreur CTS "conversationnel" conversationnel telephone speech terrain BN 20 65k mots, "préparé" broadcast news terrain WSJ 20k mots, lecture WSJ 5k mots, lecture Wall Street Journal labo ATIS "spontané" infos trafic aérien labo RM 1000 mots, lecture bataille navale labo date Figure 3. Taux d erreurs de mots au cours du temps pour la langue anglaise. Les différentes courbes représentent différentes tâches: lecture de phrases (RM, WSJ), demandes spontanées d informations (ATIS) (parole de laboratoire), journaux radio- et télédiffusés et conversations téléphoniques (parole de terrain). Dans la section suivante nous discuterons des corpus pour le traitement automatique de l oral, en rappelant pour quels défis méthodologiques ou pour quel type de modélisation de variabilité ils étaient conçus. 2. Corpus pour le traitement automatique de l oral Nous allons donner ici quelques exemples significatifs concernant la production de corpus oraux pour la reconnaissance automatique de la parole. Cette production s est faite à des degrés divers dans les différents pays travaillant sur le TAO (France, Etats-Unis, Angleterre, Allemagne, Pays-Bas, Italie, Espagne, Grèce et plus récemment les pays asiatiques). Pour les langues européennes cette production a souvent été soutenue par des projets européens et trans-nationaux (corpus CGN pour les néerlandophones de Belgique et des Pays-Bas). Au niveau national une partie importante de la production de corpus est soutenue par la défense (ARPA Advanced Reasearch Project Agency aux États-Unis, DGA (Délégation Générale à l Armement en France). Les efforts énormes déployés pour la production de corpus, et de manière générale, sur les ressources linguistiques (dictionnaires de prononciation, dictionnaires multilingues, corpus étiquetés et enrichis avec des classes grammaticales, des entités nommées, corpus alignés multilingues) ont vu la naissance d agences de soutien au développement et à la distribution de corpus. Ainsi en 1992 le LDC (Linguistic Data Consortium) a été créé à l Université de Pennsylvanie, avec le soutien du DARPA et du NSF (national science foundation). En 1995 la France a été motrice dans la création de ELRA (European Linguistic Resources Association) à Paris, visant à la validation, gestion et distribution de
8 ressources de parole, texte et terminologie. Comme évoqué dans la section précédente, des corpus de plus en plus complexes ont été produits pour étudier des questions précises et pour faire reculer les défis posés par la parole et de manière plus générale par l oral. On peut schématiser l évolution dans les besoins de corpus au cours du temps : 1) des corpus de parole pour la modélisation acoustique p(x m), avec un nombre de locuteurs de plus en plus grand dans des conditions variées. 2) collecte de corpus d écrit pour la modélisation dite linguistique P(m). 3) création de corpus d oral transcrit afin d obtenir des modèles P(m) représentant davantage le genre oral que l écrit. Ainsi depuis la fin des années cinquante jusqu au début des années soixante-dix la question de fond était: est-il possible de retrouver à partir d un signal acoustique, le mot prononcé ou les phonèmes contenus dans le mot? Cette question porte en elle au moins deux approches différentes, une holostique, l autre analytique. On se rend facilement compte de l intérêt potentiel de l approche analytique pour de nombreuses disciplines SHS qui s intéressent à la variation et aux invariants: phonétique, phonologie, psychoacoustique, psycholinguistique La reconnaissance de la parole était vue essentiellement soit comme un problème de reconnaissance des formes, soit comme un problème de système-expert, avec comme problèmes sousjacents: quels paramètres acoustiques pour décrire ces formes, quelles unités pour les modéliser côté reconnaissance des formes, quelles connaissances utiliser pour identifier les phonèmes côté systèmes-experts, comment tenir compte du problème des distorsions spectrales et temporelles observées entre deux répétitions d un même énoncé par un même locuteur? Il est clair que pour aborder ces questions élémentaires, il valait mieux se focaliser sur quelques énoncés simples. La production de corpus de parole restait essentiellement dépendante d initiatives individuelles de chercheurs. Un locuteur, tout au mieux deux, trois, enregistraient quelques mots ou phrases simples en laboratoire, avec une prédilection pour les chiffres, les lettres et les nombres. En effet la reconnaissance des chiffres et des lettres, tout en délimitant des vocabulaires très restreint, pose les défis scientifiques pertinents et permet déjà d envisager un nombre d applications de reconnaissance, comme les codes postaux, les numéros de téléphone... Dans ce contexte fut lancé au début des années 70 le programme ARPA-SUR Speech Understanding Research. Il faut rappeler que la compréhension de la parole n était qu un volet de programmes de recherche sur la langue avec, au départ, une motivation forte pour la traduction automatique dans un contexte politique de guerre froide. Les grands laboratoires américains (notamment CMU et BBN) ont participé à ce programme qui visait la compréhension de phrases simples construites avec un vocabulaire d environ 1000 mots sans trop de spécifications. Alors que les résultats étaient globalement décevants, des conclusions importantes pour la direction des recherches futures au niveau international en découlent, même si leur mise en place a pris environ dix ans. Ces conclusions furent d abord qu il faut séparer la reconnaissance automatique de la compréhension, eu égard à la complexité du problème. D autre part, afin de produire des résultats comparables et interprétables, les différents chercheurs doivent se mettre à travailler sur des tâches et des corpus partagés avec une
9 évaluation commune sur des données nouvelles. À partir des années quatre-vingts, des premières grandes initiatives de collectes de corpus apparaissent. En 1984 le DARPA lance un programme Speech and Natural Language s attaquant aux problèmes majeurs de la coarticulation et de la variabilité interlocuteur. Il s agit d enregistrer des centaines de personnes, hommes et femmes, lisant des phrases garantissant une bonne couverture phonémique. Le but est d obtenir des modèles acoustiques de phones génériques, capables de représenter n importe quel vocabulaire et n importe quel locuteur. Des efforts semblables sont lancés en Europe et notamment en France avec les projets BDSONS et BREF (Lamel 1991), ce dernier étant déjà clairement tourné vers le domaine journalistique. La table 2 rappelle quelques-unes de ces initiatives. Table 2. Exemples de corpus de parole crées pour le TA0. Les langues (L) sont anglais (A) et français (F). date style nom L #loc. vol. responsables chiffres 1982 lecture TI-digits A 111h/114f 12h Texas labo 50ga/51fi Instruments 1988 lecture EUROM 7L 30h/30f CE SAM phrases phonémiquement équilibrées labo EUROM 7L per L 1989 lecture TIMIT A 630 8h MIT, SRI labo 8 TI DARPA-NIST dialectes 1989 lecture BDSONS F 32 ICP, GDR-PRC CHM labo CE SAM informations trafic aérien 1990 spontané ATIS A 567 k*10h BBN, CMU, MIT téléphone SRI, NIST journaux 1990 lecture BREF F 55h/65f 100h LIMSI, GDR-PRC CHM labo Le Monde AUPELF, CE Polyglot 1990 lecture WSJ A 162h TI, NIST labo Wall Street J préparé BN A 250h LDC, NIST terrain radio/télé BBN 2005 préparé ESTER F 100h DGA, ELRA terrain radio AFCP, LIMSI Les corpus lus présentent pour le traitement automatique l intérêt de disposer d une version transcrite de l oral a priori, mais comme nous l avons souligné dès le départ, on n est pas ici dans un vrai genre oral, mais simplement dans de l écrit
10 oralisé. Les premiers grands corpus oraux sans modalité écrite préexistante sont enregistrés sur des tâches limitées, visant à implémenter des services téléphoniques de renseignements (ATIS aux États-Unis, projets avec la SNCF, avec le CNET en France). De telles tâches impliquent de fait l usage d une phraséologie très limitée, même si les locuteurs peuvent s exprimer librement. En particulier le vocabulaire reste très restreint en dehors des entités spécifiques (noms de villes par exemple). Ces corpus posent le problème de création de transcriptions manuelles de référence à grande échelle, et les travaux des linguistes de l oral ont été précieux pour mettre au point des conventions de transcription (Blanche-Benveniste 1999). Depuis les années 1995 avec les recherches sur la parole journalistique des centaines, voire des milliers d heures d oral préparé journalistique ont pu être transcrites manuellement. Cet effort a été fortement soutenu par les agences militaires (ARPA, DGA) et les agences de distribution de ressources linguistiques (LDC, ELRA). Des logiciels dédiés à la transcription manuelle, en particulier TRANSCRIBER (Barras 2001), ont été développés en intelligence commune entre les États-Unis et la France. Ce logiciel libre est d ailleurs utilisé largement au-delà du TAO par des linguistes de l oral ou des psycholinguistes s intéressant par exemple à l acquisition du langage. 3. Études linguistiques Nous conclurons cette contribution, en esquissant quelques études linguistiques s appuyant sur les corpus oraux collectés pour le TAO et les systèmes de transcription comme instruments de mesure (Adda-Decker 2006, Habert 2005). Même si les corpus ont été collectés avec des critères, où les exigences technologiques ont primé sur les critères linguistiques, des études quantitatives peuvent venir affiner nos connaissances en phonétique, phonologie, prosodie,... et dresser un tableau plus précis de la variation à l oral (Delattre 1966). Comme évoqué dans les sections précédentes, les erreurs de transcription peuvent pointer sur des problèmes de modélisation des prononciations : oubli d une liaison (Encrevé 1998), d une forme contractée usuelle... Les travaux en TAO menés sur différents styles de parole démontrent un besoin crucial de corpus de parole spécifique, afin de garantir une bonne modélisation acoustique des mots. Ce résultat suggère que les prononciations changent de manière importante avec le style de parole (lecture ou spontané, parole publique ou privée), sans oublier que de grands corpus d oral transcrit et avec balises temporelles permettent de faire grand nombre de travaux de phonétique expérimentale afin de valider des théories et modèles existants. De plus, des corpus conçus et collectés par des linguistes peuvent venir enrichir ces études. Notamment le corpus PFC (Durand 2003) (Phonologie du français contemporain), qui rassemble des centaines d heures de parole (lecture et entretiens) collectées dans des dizaines de points d enquête de l espace francophone, permet d étudier l influence du style de parole et de l accent régional sur la production langagière (inventaire phonémique, réalisations des phonèmes, schwa et liaison, variantes de prononciation, lexique...) (Fougeron 2001, Boula de Mareuil 2003). 3.1 Voyelles et formants Dans une collaboration avec le LPP de l université Paris 3 (Gendrot 2005), nous
11 avons pu mesurer, à partir de 70 heures de corpus journalistique, les formants des voyelles à partir d une segmentation et d un étiquetage phonémique automatique. Les valeurs des formants, extraits automatiquement à l aide de Praat (Boersma 2001) ont été calculées en fonction de leur durée (durée>80ms, durée entre 60 et 80ms, durée<60ms). La figure 4 montre un mouvement globalement centripète (centralisation) avec une durée segmentale décroissante. Ces résultats permettent à la fois de confirmer les résultats connus sur la dépendance entre durée et formants (Lindblom 1963), et d établir des valeurs de formants moyens pour le français journalistique, qui peut être considéré comme un parler de référence. Figure 4. Valeurs moyennes des formants F1 et F2 des voyelles orales du français en fonction d une durée segmentale décroissante. 3.2 Vers une phonologie de corpus Les recherches en traitement automatique de la parole concernent le côté signifiant de la langue (dans la terminologie de Saussure), l autre face du signe linguistique, le signifié, n est pas abordée. La reconnaissance automatique de la parole, vise à convertir le signal acoustique (le signifiant acoustique) en signal graphémique (signifiant écrit). La variabilité phonétique observée dans le signal acoustique devrait pouvoir être ignorée, afin de recouvrer la suite de mots prononcée via une prononciation standard. Cette problématique s apparente au moins partiellement à celle des premiers phonologues de la fin 19e et début du 20e siècle, comme Baudouin de Courtenay, Saussure ou Troubetzkoy : distinguer deux phonétiques descriptives distinctes, suivant qu on veut étudier les sons phoniques comme des signaux physiques (phonétique) ou comme des éléments abstraits, sons distinctifs d un système linguistique (phonologie). La notation phonologique, très économique, permet d associer à chaque mot une prononciation canonique. La linéarité du signifiant acoustique (déroulement dans le temps) entraîne que les éléments se présentent a priori les uns après les autres : ils forment une chaîne. Cette représentation phonologique sous forme de chaîne de
12 phonèmes est utilisée pour la modélisation acoustique des mots en reconnaissance automatique de la parole. A cette représentation sont alors associés des modèles de Markov cachés à mélange de gaussiennes permettant de rendre compte de la variation phonétique effectivement observée dans le signal physique. Si cette modélisation s est montré efficace pour une parole bien articulée (lecture, parole journalistique), le traitement d une parole plus spontanée, plus relâchée pose des problèmes : les prononciations observées peuvent avoir un contenu très différent de la forme canonique : des phonèmes, des syllabes entières peuvent disparaître (Adda-Decker 2005). Il apparaît que dans la parole, tous les phonèmes ne sont pas articulés avec la même précision. Ceci n est pas toujours lié à la nature du phonème (comme pour le schwa), mais souvent à sa fonction dans le message parlé. Il apparaît dans les corpus que les mots fréquents et/ou à forte redondance sont souvent peu articulés, voire inexistants dans certains cas extrêmes. Il semble que si l information est donnée, soit par le niveau syntaxique, soit par le niveau pragmatique, alors le niveau acoustique n a pas besoin d être très complet. Nous manquons à l heure actuelle d une description détaillée de ces phénomènes. Gagner une vision plus claire des mécanismes de variation contribuera en retour à relever le défi posé par ces ruptures de chaîne en TAO. Figure 5. Le traitement automatique de la parole permet de filtrer de grands corpus afin d extraire des sous-corpus de parole répondant au phénomène étudié (e.g. prononciations non-standard, liaison, schwa, assimilation...). Ce défi consiste alors à pouvoir proposer des modèles acoustiques de mots plus courts que ceux générés par une modélisation phonologique standard et l hypothèse est que les raccourcissements ne se font pas au hasard. À cause de la loi de Zipf (voir section 1), la solution qui vise à simplement apprendre les variantes de prononciations à partir des observations dans de gigantesques corpus paraît peu réaliste et la recherche de principes généraux sous-jacents est plus stimulante. Les notions de syllabes accentuées et inaccentuées semblent pertinentes. Ces observations nous amènent à porter un intérêt grandissant vers l étude et la modélisation de la prosodie. Pour augmenter nos connaissances autour de ces questions, nous pouvons utiliser les systèmes de transcription comme outil d analyse, afin de qualifier et de quantifier ces phénomènes de sous-articulations et de réductions (Duez 2003), appelés métaplasmes. La figure 6 montre deux spectrogrammes du même bigramme de mots Premier Ministre, à gauche une prononciation canonique maximale /p œmje minist / et à droite une réalisation de
13 type métaplasme qui peut être transcrit approximativement comme [prœmimiz] avec une assimilation régressive du /s/ final dans le contexte droit britannique. Les régularités de ces phénomènes restent à être établies. Ceci nous amène à formuler des questions à l adresse des linguistes et plus particulièrement des phonologues, qui ont gardé un ancrage avec l aspect phonétique de la parole et qui s intéressent aux observations de terrain. Le traitement automatique de la parole est confronté en permanence à l aspect performance de la langue dans l acception chomskyienne du terme et cette confrontation contribuera, nous l espérons, à l augmentation des connaissances sur la langue orale. Figure 6. Variantes de prononciation pour la séquence de mots Premier Ministre produites par deux hommes politiques dans le même contexte d une émission d interviews télévisée. 4. Conclusion Les progrès accomplis en traitement automatique permettent d aborder bon nombre de recherches sous un angle nouveau. La disponibilité de corpus et d instruments pour l accès au contenu permet de poser un nombre élevé de questions en même temps et d avoir très vite, si ce n est une réponse, au moins une tendance. Nous vivons actuellement une révolution technologique qui permet d enrichir le domaine de la linguistique de l oral de nouveaux instruments et de méthodologies expérimentales exploitant de grands corpus (Habert 2005). L ère chomskyenne a rendu pendant des décennies l usage de corpus en linguistique pour le moins suspect, si ce n est hors sujet. Sans vouloir rentrer dans des polémiques scientifiques, force est de constater que nous sommes aujourd hui à un tel point d accès facile à des données orales qu il serait non scientifique de refuser l étude de
14 ces données, dont le corpus ESTER est certainement un exemple important pour le français. De telles études nous pouvons espérer dégager de nouvelles connaissances sur la langue orale et les performances des locuteurs en lien avec la neuro- et psycho-linguistique. Ces connaissances seront à terme certainement utiles pour les systèmes de traitement automatique de la parole au sens large, incluant au-delà de la transcription, des problématiques comme l identification des locuteurs, des langues et des accents, la synthèse, la compréhension et le dialogue. Notre conviction est qu une connaissance plus approfondie de l oral et des mécanismes à l œuvre dans la parole contribuera en définitive à améliorer les modélisations pour le TAO. Remerciements Une partie des travaux et résultats décrits a été soutenue par des projets interministériel TECHNOLANGUE-ESTER, CNRS TCAN Varcom, ANR PFC-Cor et par des projets européens CHIL et TC-STAR. Références Adda-Decker, M. et al. (2005), Investigating syllabic structures and their variation in spontaneous French, Speech Communication, 46, pp , Elsevier ed. Adda-Decker, M. (2006), De la reconnaissance automatique de la parole à l'analyse linguistique de corpus oraux, XXVIèmes Journées d'études sur la Parole. Bahl, L. et al. (1989), A tree-based statistical language model for natural language speech recognition, IEEE Transactions on Acoustic, Speech and Signal Processing, 37(7): Baker, J. M. (1975) The DRAGON system - an overview, IEEE Transactions on Acoustics, Speech, and Signal Processing, 23(1): Barras, C. et al. (2001), Transcriber: development and use of a tool for assisting speech corpora production. Speech Communication, 33(1-2):5-22. Baude, O. (2006) Corpus Oraux - guide des bonnes pratiques, CNRS édition. Baum, L., Petrie, T. (1966), Statistical inference for probabilistic functions of finite state Markov chains, Annals of Mathematical Statistics, 37: Baum L. (1972), An inequality and associated maximization technique in statistical estimation for probabilistic functions of a Markov process,,inequalities, 3:1-8. Bellman, R.E. (1957) Dynamic Programming, Princeton, NJ, Princeton Univ. Press. Blanche-Benveniste, C. (1999), Constitution et exploitation d un grand corpus, Revue française de linguistique appliquée, IV-1 (65-74). Boersma, P. (2001) PRAAT, a system for doing phonetics by computer. Glot
15 International 5(9/10): Boula de Mareüil, P. et al. (2003), Liaisons in French: a corpus-based study using morpho-syntactic information. In Proceedings of the International Conference on Phonetic Sciences, ICPhS, Barcelone. Davis et al. (1952), Automatic Recognition of Spoken Digits, JASA, vol. 24 no. 6. Delattre, P. (1966) Studies in French and Comparative Phonetics, La Haye, Mouton. Dolmazon, J.M. et al. (1997), Organisation de la première campagne AUPELF pour l évaluation des systèmes de dictée vocale, JST97, Avignon. Dreyfus-Graf, J. (1972), Parole codée (phonocode) : reconnaissance automatique de langages naturels et artificiels, Revue d Acoustique, no. 21, pp Duez, D. (2003), Modelling Aspects of Reduction and Assimilation in Spontaneous French Speech, In Proc. IEEE-ISCA Workshop on Spontaneous Speech Processing and Recognition. Durand, J. et al. (2003), Le projet Phonologie du français contemporain (PFC). La Tribune Internationale des Langues Vivantes Encrevé, P. (1988), La liaison avec et sans enchaînement. Phonologie tridimensionnelle et usages du français. Éditions du Seuil, Paris. Forney, G. D. (1973). The Viterbi algorithm, Proc. of the IEEE, 61(3): Fouché, P. (1959), Traité de prononciation française. Editions Klincksieck, Paris. Fougeron, C. et al. (2001), Liaison and schwa deletion in French: an effect of lexical frequency and competition, Eurospeech, Aalborg (pp ). Galliano, S. et al. (2005), The ESTER Phase II Evaluation Campaign for the Rich Transcription of French Broadcast News, Eurospeech-Interspeech, Lisbonne. Gauvain, JL, Lee, CH. (1994), Maximum a posteriori estimation for multivariate Gaussian mixture observations of Markov chains, IEEE Transactions on Speech and Audio Processing, 2(2): Gauvain, J-L. et al. (2005), Where Are We In Transcribing French Broadcast News?, Eurospeech-Interspeech, Lisbonne. Gendrot, C. Adda-Decker, M. (2005), Impact of duration on F1/F2 formant values of oral vowels: an automatic analysis of large broadcast news corpora in French and German, Eurospeech-Interspeech, Lisbonne,.
16 Habert, B. (2005), Portrait de linguiste(s) à l instrument, Texto! Textes et cultures, ISSN , Vol. X, n.4. Lamel, L.F. et al. (1991), BREF, a Large Vocabulary Spoken Corpus for French, EuroSpeech 91. Jelinek, F. (1976), Continuous speech recognition by statistical methods, Proc. of the IEEE, 64(4): Jelinek, F., Mercer, R. (1980). Interpolated estimation of Markov source parameters from sparse data, Proceedings of an International Workshop on Pattern Recognition in Practice, Amsterdam, The Netherlands. North-Holland. Jelinek, F. (1991), Self-organized language modeling for speech recognition, In Waibel&Lee, eds, Readings in Speech Recognition, pp Morgan Kaufmann. Lindblom B. (1963), Spectrogaphic study of vowel reduction, Journal of the Acoustical Society of America, Vol. 35, pp Mariani, J., Paroubek, P. (1999), Human Language Technologies Evaluation in the European Framework, Proc. of the DARPA Broadcast News Workshop, Washington, Morgan Kaufman Publishers, ISBN , pp Mariani J. (2005), Developing Language Technologies with the Support of Language Resources and Evaluation Programs, Language Resources and Evaluation, 39(1):35-44, Pallett D. S. (2003), A Look at NIST s Benchmark ASR Tests: Past, Present, and Future, Proc. of the IEEE Workshop Automatic Speech Recognition and Understanding, St. Thomas, les Vierges, Etats-Unis. Rabiner, L. R. (1989), A tutorial on hidden Markov models and selected applications in speech recognition, Proceedings of the IEEE, 77(2): Wiren-Stubbs (1956), Electronic binary selection system for phoneme classification, JASA, vol. 28, pp
Apprentissage Automatique
Apprentissage Automatique Introduction-I jean-francois.bonastre@univ-avignon.fr www.lia.univ-avignon.fr Définition? (Wikipedia) L'apprentissage automatique (machine-learning en anglais) est un des champs
Plus en détailN 334 - SIMON Anne-Catherine
N 334 - SIMON Anne-Catherine RÉALISATION D UN CDROM/DVD CONTENANT DES DONNÉES DU LANGAGE ORAL ORGANISÉES EN PARCOURS DIDACTIQUES D INITIATION LINGUISTIQUE A PARTIR DES BASES DE DONNÉES VALIBEL Introduction
Plus en détailLe modèle standard, SPE (1/8)
Le modèle standard, SPE (1/8) Rappel : notion de grammaire mentale modulaire Les composants de la grammaire : module phonologique, sémantique syntaxique Syntaxe première : elle orchestre la relation mentale
Plus en détailModélisation du comportement habituel de la personne en smarthome
Modélisation du comportement habituel de la personne en smarthome Arnaud Paris, Selma Arbaoui, Nathalie Cislo, Adnen El-Amraoui, Nacim Ramdani Université d Orléans, INSA-CVL, Laboratoire PRISME 26 mai
Plus en détailLa syllabe (1/5) Unité intuitive (différent du phonème) Constituant essentiel pour la phonologie au même titre que phonème et trait
La syllabe (1/5) Unité intuitive (différent du phonème) Variation des structures syllabiques d une langue à une autre et dans une même langue (cf strict vs à : une seule syllabe mais des structures bien
Plus en détailÉtude de la performance des modèles acoustiques pour des voix de personnes âgées en vue de l adaptation des systèmes de RAP
Étude de la performance des modèles acoustiques pour des voix de personnes âgées en vue de l adaptation des systèmes de RAP Frédéric Aman, Michel Vacher, Solange Rossato, Remus Dugheanu, François Portet,
Plus en détailDESCRIPTEURS NIVEAU A2 du Cadre européen commun de référence pour les langues
DESCRIPTEURS NIVEAU A2 du Cadre européen commun de référence pour les langues ACTIVITÉS DE COMMUNICATION LANGAGIÈRE ET STRATÉGIES Activités de production et stratégies PRODUCTION ORALE MONOLOGUE SUIVI
Plus en détailProjet de Master en Informatique: Web WriteIt!
Projet de Master en Informatique: Web WriteIt! Web WriteIt! Baris Ulucinar Supervisé par le Prof. Rolf Ingold, Dr. Jean Hennebert, Andreas Humm et Robert Van Kommer Avril 2007 Table des matières 2 1. Introduction
Plus en détailMASTER LPL : LANGUE ET INFORMATIQUE (P)
MASTER LPL : LANGUE ET INFORMATIQUE (P) RÉSUMÉ DE LA FORMATION Type de diplôme := Master Domaine : Arts, Lettres, Langues Mention : LITTERATURE, PHILOLOGIE, LINGUISTIQUE Spécialité : LANGUE ET INFORMATIQUE
Plus en détailCOORDONNÉES PROFESSIONNELLES PARCOURS PROFESSIONNEL FORMATION
Naomi Yamaguchi Maîtresse de Conférences Université Sorbonne Nouvelle Paris 3 Laboratoire de Phonétique et Phonologie (UMR 7018) http://naomi.yamaguchi.free.fr/ http://lpp.in2p3.fr/axes-de-recherche-592
Plus en détailACTIVITÉS DE COMMUNICATION LANGAGIÈRE ET STRATÉGIES
référence pour les langues ACTIVITÉS DE COMMUNICATION LANGAGIÈRE ET STRATÉGIES Activités de production et stratégies PRODUCTION ORALE GÉNÉRALE MONOLOGUE SUIVI : décrire l'expérience MONOLOGUE SUIVI : argumenter
Plus en détailmajuscu lettres accent voyelles paragraphe L orthographe verbe >>>, mémoire préfixe et son enseignement singulier usage écrire temps copier mot
majuscu conjugaison >>>, L orthographe singulier syllabe virgule mémoire lettres et son enseignement graphie suffixe usage accent ; écrire féminin temps voyelles mot point Renforcer l enseignement de l
Plus en détailQuel est l apport de la détection d entités nommées pour l extraction d information en domaine restreint?
Quel est l apport de la détection d entités nommées pour l extraction d information en domaine restreint? Camille Dutrey 1, 2, 3, Chloé Clavel 1, Sophie Rosset 2, Ioana Vasilescu 2, Martine Adda-Decker
Plus en détailDocument d aide au suivi scolaire
Document d aide au suivi scolaire Ecoles Famille Le lien Enfant D une école à l autre «Enfants du voyage et de familles non sédentaires» Nom :... Prénom(s) :... Date de naissance :... Ce document garde
Plus en détailACADÉMIE DE NANTES UNIVERSITÉ DU MAINE THÈSE. présentée à l Université du Maine pour obtenir le diplôme de DOCTORAT
ACADÉMIE DE NANTES UNIVERSITÉ DU MAINE THÈSE présentée à l Université du Maine pour obtenir le diplôme de DOCTORAT SPÉCIALITÉ : Informatique École Doctorale 503 «Sciences et Technologies de l Information
Plus en détailUE11 Phonétique appliquée
UE11 Phonétique appliquée Christelle DODANE Permanence : mercredi de 11h15 à 12h15, H211 Tel. : 04-67-14-26-37 Courriel : christelle.dodane@univ-montp3.fr Bibliographie succinte 1. GUIMBRETIERE E., Phonétique
Plus en détailNOM : Prénom : Date de naissance : Ecole : CM2 Palier 2
NOM : Prénom : Date de naissance : Ecole : CM2 Palier 2 Résultats aux évaluations nationales CM2 Annexe 1 Résultats de l élève Compétence validée Lire / Ecrire / Vocabulaire / Grammaire / Orthographe /
Plus en détailRecherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA
RÉCITAL 2005, Dourdan, 6-10 juin 2005 Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA Siham Boulaknadel (1,2), Fadoua Ataa-Allah (2) (1) LINA FRE
Plus en détailAttestation de maîtrise des connaissances et compétences au cours moyen deuxième année
Attestation de maîtrise des connaissances et compétences au cours moyen deuxième année PALIER 2 CM2 La maîtrise de la langue française DIRE S'exprimer à l'oral comme à l'écrit dans un vocabulaire approprié
Plus en détail1. Qu est-ce que la conscience phonologique?
1. Qu est-ce que la conscience phonologique? Définition La conscience phonologique est définie comme la connaissance consciente et explicite que les mots du langage sont formés d unités plus petites, à
Plus en détailMorphosyntaxe de l'interrogation en conversation spontanée : modélisation et évaluations
U Université dumaine Faculté des Lettres, Langues et Sciences humaines Morphosyntaxe de l'interrogation en conversation spontanée : modélisation et évaluations Carole Lailler 1 L interrogation : une modalité
Plus en détailStructuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe
Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe Karima Dhouib, Sylvie Després Faiez Gargouri ISET - Sfax Tunisie, BP : 88A Elbustan ; Sfax karima.dhouib@isets.rnu.tn,
Plus en détailNotes de lecture : Dan SPERBER & Deirdre WILSON, La pertinence
Notes de lecture : Dan SPERBER & Deirdre WILSON, La pertinence Gwenole Fortin To cite this version: Gwenole Fortin. Notes de lecture : Dan SPERBER & Deirdre WILSON, La pertinence. 2006.
Plus en détailFrançais langue étrangère Savoir-faire - Actes de paroles - Supports d apprentissage -Tâches
Niveau C1 Descripteur global Français langue étrangère Savoir-faire - Actes de paroles - Supports d apprentissage -Tâches La personne peut : comprendre en détail de longs discours et des échanges complexes
Plus en détailContributions à la reconnaissance robuste de la parole
École doctorale IAE + M Département de formation doctorale en informatique Contributions à la reconnaissance robuste de la parole Mémoire présenté et soutenu publiquement le 8 décembre 2005 pour l obtention
Plus en détailAbdenour Hacine-Gharbi. Sélection de paramètres acoustiques pertinents pour la reconnaissance de la parole
ÉCOLE DOCTORALE SCIENCES ET TECHNOLOGIES (ORLEANS) FACULTÉ de TECHNOLOGIE (Sétif) Laboratoire PRISME THÈSE EN COTUTELLE INTERNATIONALE présentée par : Abdenour Hacine-Gharbi soutenue le : 09 décembre 2012
Plus en détailADAPT: un modèle de transcodage des nombres. Une application des systèmes de production au développement
ADAPT: un modèle de transcodage des nombres Une application des systèmes de production au développement Référence Barrouillet, P., Camos, V., Perruchet, P., & Seron, X. (2004). A Developmental Asemantic
Plus en détailPLAN D ÉTUDES. école fondamentale
PLAN D ÉTUDES école fondamentale Nous Henri, Grand-Duc de Luxembourg, Duc de Nassau, Vu la loi du 6 février 2009 portant organisation de l enseignement fondamental; Notre Conseil d État entendu; Sur le
Plus en détailRapport : Base de données. Anthony Larcher 1
Rapport : Base de données Anthony Larcher 1 1 : Laboratoire d Informatique d Avignon - Université d Avignon Tél : +33 (0) 4 90 84 35 55 - Fax : + 33 (0) 4 90 84 35 01 anthony.larcher@univ-avignon.fr 14
Plus en détailDan Istrate. Directeur de thèse : Eric Castelli Co-Directeur : Laurent Besacier
Détection et reconnaissance des sons pour la surveillance médicale Dan Istrate le 16 décembre 2003 Directeur de thèse : Eric Castelli Co-Directeur : Laurent Besacier Thèse mené dans le cadre d une collaboration
Plus en détailCONSEILS POUR LA REDACTION DU RAPPORT DE RECHERCHE. Information importante : Ces conseils ne sont pas exhaustifs!
CONSEILS POUR LA REDACTION DU RAPPORT DE RECHERCHE Information importante : Ces conseils ne sont pas exhaustifs! Conseils généraux : Entre 25 et 60 pages (hormis références, annexes, résumé) Format d un
Plus en détailIntroduction au datamining
Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des
Plus en détailSITES WEB GRATUITS D APPRENTISSAGE EN ANGLAIS ET EN D AUTRES LANGUES
SITES WEB GRATUITS D APPRENTISSAGE EN ANGLAIS ET EN D AUTRES LANGUES Compréhension orale : http://www.elllo.org/ (traduction, vocabulaire, articles, vidéos) http://breakingnewsenglish.com/ (textes et audio)
Plus en détailMaster IAD Module PS. Reconnaissance de la parole (suite) Alignement temporel et Programmation dynamique. Gaël RICHARD Février 2008
Master IAD Module PS Reconnaissance de la parole (suite) Alignement temporel et Programmation dynamique Gaël RICHARD Février 2008 1 Reconnaissance de la parole Introduction Approches pour la reconnaissance
Plus en détailIntelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com
Intelligence Artificielle et Systèmes Multi-Agents Badr Benmammar bbm@badr-benmammar.com Plan La première partie : L intelligence artificielle (IA) Définition de l intelligence artificielle (IA) Domaines
Plus en détailI/ CONSEILS PRATIQUES
D abord, n oubliez pas que vous n êtes pas un enseignant isolé, mais que vous appartenez à une équipe. N hésitez jamais à demander des idées et des conseils aux autres collègues (linguistes et autres)
Plus en détail10 REPÈRES «PLUS DE MAÎTRES QUE DE CLASSES» JUIN 2013 POUR LA MISE EN ŒUVRE DU DISPOSITIF
10 REPÈRES POUR LA MISE EN ŒUVRE DU DISPOSITIF «PLUS DE MAÎTRES QUE DE CLASSES» JUIN 2013 MEN-DGESCO 2013 Sommaire 1. LES OBJECTIFS DU DISPOSITIF 2. LES ACQUISITIONS PRIORITAIREMENT VISÉES 3. LES LIEUX
Plus en détailMCMC et approximations en champ moyen pour les modèles de Markov
MCMC et approximations en champ moyen pour les modèles de Markov Gersende FORT LTCI CNRS - TELECOM ParisTech En collaboration avec Florence FORBES (Projet MISTIS, INRIA Rhône-Alpes). Basé sur l article:
Plus en détailDisparités entre les cantons dans tous les domaines examinés
Office fédéral de la statistique Bundesamt für Statistik Ufficio federale di statistica Uffizi federal da statistica Swiss Federal Statistical Office EMBARGO: 02.05.2005, 11:00 COMMUNIQUÉ DE PRESSE MEDIENMITTEILUNG
Plus en détailLaboratoire 4 Développement d un système intelligent
DÉPARTEMENT DE GÉNIE LOGICIEL ET DES TI LOG770 - SYSTÈMES INTELLIGENTS ÉTÉ 2012 Laboratoire 4 Développement d un système intelligent 1 Introduction Ce quatrième et dernier laboratoire porte sur le développement
Plus en détailUniversité de Lorraine Licence AES LIVRET DE STAGE LICENCE 2014-2015
Université de Lorraine Licence AES LIVRET DE STAGE LICENCE 2014-2015 1 LA REDACTION DU RAPPORT DE STAGE Le mémoire ne doit pas consister à reprendre tels quels des documents internes de l entreprise ou
Plus en détailDiapo 1. Objet de l atelier. Classe visée. Travail en co-disciplinarité (identité et origine académique des IEN)
COMMENTAIRE Séminaire national Réforme de la série Gestion-administration Lyon 10 et 11 mai 2012 Vendredi matin Martine DECONINCK (IEN EG), Michèle SENDRE (IEN L), Isabelle VALLOT (IEN EG) Diapo 1. Objet
Plus en détailIntroduction à la méthodologie de la recherche
MASTER DE RECHERCHE Relations Économiques Internationales 2006-2007 Introduction à la méthodologie de la recherche geraldine.kutas@sciences-po.org Les Etapes de la Recherche Les étapes de la démarche Etape
Plus en détailL évaluation de la performance de la communication media
L évaluation de la performance de la communication media Pascal ROOS Enseignant en BTS Management des Unités Commerciales Lycée Edmond Rostand, Saint Ouen l Aumône (95) «Je sais qu un dollar de publicité
Plus en détailLES LANGUES EN DANGER : UN DÉFI POUR LES TECHNOLOGIES DE LA LANGUE
2 LES LANGUES EN DANGER : UN DÉFI POUR LES TECHNOLOGIES DE LA LANGUE Nous vivons une révolution numérique qui a un impact fort sur la communication et la société. Les développements récents des technologies
Plus en détailPrésentation par François Keller Fondateur et président de l Institut suisse de brainworking et M. Enga Luye, CEO Belair Biotech
Présentation par François Keller Fondateur et président de l Institut suisse de brainworking et M. Enga Luye, CEO Belair Biotech Le dispositif L Institut suisse de brainworking (ISB) est une association
Plus en détailReconnaissance automatique de la parole à l aide de colonies de fourmis
Reconnaissance automatique de la parole à l aide de colonies de fourmis Benjamin Lecouteux Didier Schwab Groupe d Étude en Traduction Automatique/Traitement Automatisé des Langues et de la Parole Laboratoire
Plus en détailCommerce International. à référentiel commun européen
Brevet de technicien supérieur Commerce International à référentiel commun européen Référentiel de formation SEPTEMBRE 2011 RÉFÉRENTIEL DE FORMATION Unités de formation UF1 Culture Générale et Expression
Plus en détail1 On peut consulter et interroger ce corpus sur le site de l équipe DELIC : http://www.up.univmrs.fr/delic/crfp.
Ce que les corpus nous apprennent sur la langue Bilger Mireille (Université de Perpignan) - bilger@univ-perp.fr Cappeau Paul (Université de Poitiers) - Paul.Cappeau@univ-poitiers.fr La description syntaxique
Plus en détailEtudier l informatique
Etudier l informatique à l Université de Genève 2015-2016 Les bonnes raisons d étudier l informatique à l UNIGE La participation à des dizaines de projets de recherche européens Dans la présente brochure,
Plus en détailLes 10 grands principes de l utilisation du data mining pour une gestion de la relation client réussie
Les 10 grands principes de l utilisation du data mining pour une gestion de la relation client réussie Découvrir les stratégies ayant fait leurs preuves et les meilleures pratiques Points clés : Planifier
Plus en détailC est quoi un centre d apprentissage Les centres d apprentissage sont des lieux d exploration et de manipulation qui visent l acquisition de
C est quoi un centre d apprentissage Les centres d apprentissage sont des lieux d exploration et de manipulation qui visent l acquisition de connaissances, la pratique d habilités ou le développement d
Plus en détaild évaluation Objectifs Processus d élaboration
Présentation du Programme pancanadien d évaluation Le Programme pancanadien d évaluation (PPCE) représente le plus récent engagement du Conseil des ministres de l Éducation du Canada (CMEC) pour renseigner
Plus en détailUn dictionnaire électronique pour apprenant de l'arabe (langue seconde) basé sur corpus
JEP-TALN 2004, Traitement Automatique de l Arabe, Fès, 20 avril 2004 Un dictionnaire électronique pour apprenant de l'arabe (langue seconde) basé sur corpus ZAAFRANI Riadh Faculté des Sciences Juridiques,
Plus en détailNom de l application
Ministère de l Enseignement Supérieur et de la Recherche Scientifique Direction Générale des Etudes Technologiques Institut Supérieur des Etudes Technologiques de Gafsa Département Technologies de l Informatique
Plus en détailCompte-rendu de Hamma B., La préposition en français
Compte-rendu de Hamma B., La préposition en français Badreddine Hamma To cite this version: Badreddine Hamma. Compte-rendu de Hamma B., La préposition en français. Revue française de linguistique appliquée,
Plus en détailLa recherche interventionnelle en santé des populations : moteur d innovation
La recherche interventionnelle en santé des populations : moteur d innovation L O U I S E P O T V I N, P h D C H A I R E D E R E C H E R C H E D U C A N A D A A P P R O C H E S C O M M U N A U T A I R
Plus en détailModélisation aléatoire en fiabilité des logiciels
collection Méthodes stochastiques appliquées dirigée par Nikolaos Limnios et Jacques Janssen La sûreté de fonctionnement des systèmes informatiques est aujourd hui un enjeu économique et sociétal majeur.
Plus en détailGuide No.2 de la Recommandation Rec (2009).. du Comité des Ministres aux États membres sur la démocratie électronique
DIRECTION GENERALE DES AFFAIRES POLITIQUES DIRECTION DES INSTITUTIONS DEMOCRATIQUES Projet «BONNE GOUVERNANCE DANS LA SOCIETE DE L INFORMATION» CAHDE (2009) 2F Strasbourg, 20 janvier 2009 Guide No.2 de
Plus en détailVeille - recherche enrichissement. Veille sur les technologies et pratiques émergentes Recherche :
CRIM Veille - recherche enrichissement Veille sur les technologies et pratiques émergentes Recherche : Repérer et développer d des technologies d avantd avant-garde et les transférer rer vers l entreprise,
Plus en détailComment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie
Partie I : Séries statistiques descriptives univariées (SSDU) A Introduction Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie et tous sont organisés selon le même
Plus en détailNormes de mise en œuvre des programmes et applications concrètes. En vigueur à compter du 1 er janvier 2014
Normes de mise en œuvre des programmes et applications concrètes En vigueur à compter du 1 er janvier 2014 Normes de mise en œuvre des programmes et applications concrètes En vigueur à compter du 1 er
Plus en détailPortail Vocal d Entreprise
Portail Vocal d Entreprise Responsable et intégration IBM Communication Langagière et Interaction Personne-Système CNRS - INPG - UJF BP 53-38041 Grenoble Cedex 9 - France Conception, maquette Évaluation
Plus en détailRéaliser un journal scolaire
Réaliser un journal scolaire 1/ Connaître le journal et ses contenus Pour que les élèves puissent à leur tour devenir producteurs, il faut absolument qu ils apprennent à connaître le journal et ses contenus.
Plus en détailRÉSUMÉ DES NORMES ET MODALITÉS D ÉVALUATION AU SECONDAIRE
, chemin de la côte Saint-Antoine Westmount, Québec, HY H7 Téléphone () 96-70 RÉSUMÉ DES NORMES ET MODALITÉS D ÉVALUATION AU SECONDAIRE À TRANSMETTRE AU PARENTS Année scolaire 0-0 Document adapté par Tammy
Plus en détailEn direct de la salle de presse du Journal virtuel
Français En direct de la salle de presse du Journal virtuel Écrire des textes variés Guide En direct de notre salle de presse Guide R ENSEIGNEMENTS GÉNÉRA UX EN DIRECT DE NOTRE SA LLE DE PRESSE MISE À
Plus en détailsentée e et soutenue publiquement pour le Doctorat de l Universitl
Du rôle des signaux faibles sur la reconfiguration des processus de la chaîne de valeur de l organisation : l exemple d une centrale d achats de la grande distribution française Thèse présent sentée e
Plus en détailISO/CEI 11172-3 NORME INTERNATIONALE
NORME INTERNATIONALE ISO/CEI 11172-3 Première édition 1993-08-01 Technologies de l information - Codage de l image animée et du son associé pour les supports de stockage numérique jusqu à environ Ii5 Mbit/s
Plus en détailUNIVERSITY OF MALTA FACULTY OF ARTS. French as Main Area in an ordinary Bachelor s Degree
French Programme of Studies (for courses commencing October 2009 and later) YEAR ONE (2009/10) Year (These units start in and continue in.) FRE1001 Linguistique théorique 1 4 credits Non Compensatable
Plus en détailLivret personnel de compétences
Livret personnel de compétences Grilles de références pour l évaluation et la validation des compétences du socle commun au palier 2 Janvier 2011 MENJVA/DGESCO eduscol.education.fr/soclecommun LES GRILLES
Plus en détailISO/CEI 19770-1. Technologies de l information Gestion des actifs logiciels. Partie 1: Procédés et évaluation progressive de la conformité
NORME INTERNATIONALE ISO/CEI 19770-1 Deuxième édition 2012-06-15 Technologies de l information Gestion des actifs logiciels Partie 1: Procédés et évaluation progressive de la conformité Information technology
Plus en détailBrique BDL Gestion de Projet Logiciel
Brique BDL Gestion de Projet Logiciel Processus de développement pratiqué à l'enst Sylvie.Vignes@enst.fr url:http://www.infres.enst.fr/~vignes/bdl Poly: Computer elective project F.Gasperoni Brique BDL
Plus en détailProjet de programme pour le cycle 3
Projet de programme pour le cycle 3 9 avril 2015 Mise à jour du 15 avril Avant-propos La commande ministérielle Par une lettre au Président du Conseil supérieur des programmes datée du 4 décembre 2013,
Plus en détailEXPLOITATIONS PEDAGOGIQUES DU TABLEUR EN STG
Exploitations pédagogiques du tableur en STG Académie de Créteil 2006 1 EXPLOITATIONS PEDAGOGIQUES DU TABLEUR EN STG Commission inter-irem lycées techniques contact : dutarte@club-internet.fr La maquette
Plus en détailÉconométrie, causalité et analyse des politiques
Économétrie, causalité et analyse des politiques Jean-Marie Dufour Université de Montréal October 2006 This work was supported by the Canada Research Chair Program (Chair in Econometrics, Université de
Plus en détailDéfinition et diffusion de signatures sémantiques dans les systèmes pair-à-pair
Définition et diffusion de signatures sémantiques dans les systèmes pair-à-pair Raja Chiky, Bruno Defude, Georges Hébrail GET-ENST Paris Laboratoire LTCI - UMR 5141 CNRS Département Informatique et Réseaux
Plus en détailIl y a trois types principaux d analyse des résultats : l analyse descriptive, l analyse explicative et l analyse compréhensive.
L ANALYSE ET L INTERPRÉTATION DES RÉSULTATS Une fois les résultats d une investigation recueillis, on doit les mettre en perspective en les reliant au problème étudié et à l hypothèse formulée au départ:
Plus en détailLes écoles professionnelles offrent aux personnes en formation les cours remplissant les objectifs évaluateurs suivants :
évaluateurs «Cours facultatifs» Gestionnaire du commerce de détail Offre relative aux branches facultatives pour la 2 e et de la 3 e année de formation Les écoles professionnelles offrent aux personnes
Plus en détailLES DESCRIPTEURS DU CECRL EN UN COUP D ŒIL
LES DESCRIPTEURS DU CECRL EN UN COUP D ŒIL http://www.coe.int/t/dg4/linguistic/source/framework_fr.pdf A. NIVEAUX COMMUNS DE COMPETENCES... 3 ÉCHELLE GLOBALE...3 GRILLE POUR L AUTO-EVALUATION...4 ASPECTS
Plus en détailPrésentation du sujet de thèse Schémas temporels hybrides fondés sur les SVMs pour l analyse du comportement du conducteur
Présentation du sujet de thèse Schémas temporels hybrides fondés sur les SVMs pour l analyse du comportement du conducteur Réalisé par : Bassem Besbes Laboratoire d Informatique, Traitement de l Information
Plus en détailPrincipe de symétrisation pour la construction d un test adaptatif
Principe de symétrisation pour la construction d un test adaptatif Cécile Durot 1 & Yves Rozenholc 2 1 UFR SEGMI, Université Paris Ouest Nanterre La Défense, France, cecile.durot@gmail.com 2 Université
Plus en détailLes simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R
Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R Yves Aragon, David Haziza & Anne Ruiz-Gazen GREMAQ, UMR CNRS 5604, Université des Sciences
Plus en détailAnalyse de la vidéo. Chapitre 4.1 - La modélisation pour le suivi d objet. 10 mars 2015. Chapitre 4.1 - La modélisation d objet 1 / 57
Analyse de la vidéo Chapitre 4.1 - La modélisation pour le suivi d objet 10 mars 2015 Chapitre 4.1 - La modélisation d objet 1 / 57 La représentation d objets Plan de la présentation 1 La représentation
Plus en détailCHIFFRES CLÉS. IMport
2014 CHIFFRES CLÉS IMport La presse étrangère Magazines : des lancements réussis En volume, le marché des magazines étrangers a reculé de 7 % en 2014 par rapport à 2013, mais l augmentation moyenne de
Plus en détailSynthèse «Le Plus Grand Produit»
Introduction et Objectifs Synthèse «Le Plus Grand Produit» Le document suivant est extrait d un ensemble de ressources plus vastes construites par un groupe de recherche INRP-IREM-IUFM-LEPS. La problématique
Plus en détailLIVRET PERSONNEL DE COMPÉTENCES
Nom... Prénom... Date de naissance... Note aux parents Le livret personnel de compétences vous permet de suivre la progression des apprentissages de votre enfant à l école et au collège. C est un outil
Plus en détailCURRICULUM VITAE. Informations Personnelles
CURRICULUM VITAE Informations Personnelles NOM: BOURAS PRENOM : Zine-Eddine STRUCTURE DE RATTACHEMENT: Département de Mathématiques et d Informatique Ecole Préparatoire aux Sciences et Techniques Annaba
Plus en détailDe la tâche à sa réalisation à l aide d un document plus qu authentique. Cristina Nagle CEL UNICAMP cnagle@unicamp.br
De la tâche à sa réalisation à l aide d un document plus qu authentique Cristina Nagle CEL UNICAMP cnagle@unicamp.br I. Le contexte Plan de l intervention II. Le document authentique et le Projet 7 milliards
Plus en détailMON LIVRET DE COMPETENCES EN LANGUE (Socle commun) Niveau A1/A2 / B1
Nom : Prénom :.. MON LIVRET DE COMPETENCES EN LANGUE (Socle commun) Niveau A1/A2 / B1 Récapitulatif pour la validation du Diplôme National du Brevet (Attestation du Niveau A2 en Langue Vivante) : ACTIVITES
Plus en détailÉCOLE SECONDAIRE PÈRE-RENÉ-DE-GALINÉE
ÉCOLE SECONDAIRE PÈRE-RENÉ-DE-GALINÉE FRANÇAIS 12 e année Date: mars-juin 2015 Course Code: FRA 4U Enseignante: Mme L. Campagna et Mme Ducatel NOM DE L ÉLÈVE : Projet : Projet autonome Durée de l unité
Plus en détailMaster Etudes françaises et francophones
Master Etudes françaises et francophones 1. modèle scientifique et profilage des contenus de la filière / Présentation et spécificités de la filière Les études romanes à Leipzig sont considérées comme
Plus en détailManuel de recherche en sciences sociales
Résumé de QUIVY R; VAN CAMPENHOUDT L. 95, "Manuel de recherches en sciences sociales", Dunod Cours de TC5 du DEA GSI de l intergroupe des écoles Centrales 11/2002 Manuel de recherche en sciences sociales
Plus en détailDes banques de données terminologiques en Afrique francophone
Des banques de données terminologiques en Afrique francophone Le projet d implantation et de développement de banques de données terminologiques en Afrique est un programme d action du Rint. La présente
Plus en détailStagiaire Ecole professionnelle supérieure (EPS)
Département fédéral des affaires étrangères DFAE Direction des ressources DR Personnel DFAE Stagiaire Ecole professionnelle supérieure (EPS) L ensemble des données figurant dans ce questionnaire sont soumises
Plus en détaileduscol Ressources pour la voie professionnelle Français Ressources pour les classes préparatoires au baccalauréat professionnel
eduscol Ressources pour la voie professionnelle Ressources pour les classes préparatoires au baccalauréat professionnel Français Présentation des programmes 2009 du baccalauréat professionnel Ces documents
Plus en détail4.2 Unités d enseignement du M1
88 CHAPITRE 4. DESCRIPTION DES UNITÉS D ENSEIGNEMENT 4.2 Unités d enseignement du M1 Tous les cours sont de 6 ECTS. Modélisation, optimisation et complexité des algorithmes (code RCP106) Objectif : Présenter
Plus en détailCompte rendu de la formation
Compte rendu de la formation «Expertise de vos pratiques en Méthode Naturelle de la Lecture et de l Ecriture (MNLE)» Animée par Sybille Grandamy Le 10 mars 2015 BILAN QUALITATIF ET QUANTITATIF 9 participant(e)s
Plus en détailchargement d amplitude variable à partir de mesures Application à l approche fiabiliste de la tolérance aux dommages Modélisation stochastique d un d
Laboratoire de Mécanique et Ingénieriesnieries EA 3867 - FR TIMS / CNRS 2856 ER MPS Modélisation stochastique d un d chargement d amplitude variable à partir de mesures Application à l approche fiabiliste
Plus en détail