Programme Interdisciplinaire de Recherche du CNRS Robotique et Entités Artificielles Robea - Référence S2 Un androïde doué de parole Robotique Cognitive de la Parole et du Langage Correspondant : J.L. (ICP) Institut de la Communication Parlée INPG / Université Stendhal / CNRS UMR 5009 INPG, 46 Av. Félix Viallet, 38031 Grenoble Cedex 1 tél. 04 76 57 47 12 / fax : 04 76 57 47 10 / email : schwartz@icp.inpg.fr ***** Dossier de définition complète du projet ***** 1
I. «Quoi?» La robotique cognitive de la parole et du langage, une thématique originale et importante pour les STIC Le sous-titre de ce projet peut paraître surprenant, car il regroupe des vocables que l on trouve rarement imbriqués. Le Traitement de la Parole est annoncé comme un des enjeux des STIC, et il est souvent conçu comme un domaine où se combinent les outils du traitement du signal et de la modélisation statistique, pour développer des systèmes de reconnaissance, de synthèse ou de codage de la parole efficaces. Cette voie de recherche est importante et elle a produit de grandes avancées porteuses de technologie. Mais il en existe une autre, qui consiste à prendre la parole pour ce qu elle est, non pas un signal acoustique à reproduire, transmettre ou décoder, mais un ensemble de signaux (du son, de l image), produits par un système moteur contrôlant un ensemble de segments du corps (la mâchoire, les lèvres, la langue, etc), destinés à un système perceptif complexe, et branchés sur un module cognitif essentiel, le langage. A la fin des années 80, s est ouverte une voie de recherche portant sur la «robotique cognitive», dont Rodney A. Brooks au MIT est l un des leaders reconnus, avec le «Projet Cog». Les bases théoriques du projet sont la remise en cause de théories et de systèmes de traitement de l information monolithiques et généraux, au profit de systèmes robotiques multisensoriels autonomes et dotés de capacités d interaction et d apprentissage. C est précisément cette voie de recherche que l ICP a tenté d ouvrir à la parole au début des années 90, en établissant les bases d une «robotique de la parole», c est-à-dire en installant les 4 principes posés par Cog la «mise en chair» (biomécanique et neurophysiologique), l intégration multimodale, l étude de la croissance et du développement et celle des mécanismes d interaction et de communication au cœur des travaux sur la parole. Cette robotique de la parole met au centre de son programme l étude et la modélisation des mécanismes de perception, de production et d apprentissage, afin de mieux percer les secrets de la parole et du langage, et d ouvrir de nouvelles voies pour leur traitement automatique. Ainsi, sur le versant fondamental, ont été proposés des hypothèses sur le contrôle moteur en relation avec les représentations linguistiques ou paralinguistiques, des modèles biomécaniques de la mâchoire et de la langue ou des modèles neurophysiologiques d élaboration de représentations temps fréquence dans le système auditif, des théories sur l évolution des langues du monde, etc. Parallèlement, sur le versant applicatif, sont apparus des visages parlants synthétiques, des systèmes d analyse de scènes auditives ou de fusion de capteurs audio-visuels pour la reconnaissance de parole en milieu bruité, des outils pour le codage ou le débruitage de la parole audiovisuelle, des propositions pour la réhabilitation de patients dans le domaine de la chirurgie maxillo-faciale. I.1. Objectif Il s agit ici de remplacer un système d analyse / apprentissage statistique de la parole par la réalisation d un androïde capable de se mouvoir dans l espace sensori-moteur de la parole, c est-à-dire doté d un conduit vocal contrôlé par une musculature adéquate de la mâchoire, de la langue, des lèvres, du velum, du larynx ; et de capteurs sensoriels indispensables pour «observer» les conséquences de ses propres actions, et celles de ses congénères : deux oreilles, deux yeux, une batterie de capteurs tactiles sur ses lèvres, sa langue et son palais, et des capteurs proprioceptifs pour connaître l état de ses commandes musculaires. Cet androïde doit être capable de produire des gestes articulatoires adéquats. Il lui faut pour cela explorer son espace moteur et apprendre les correspondances de base entre les gestes et les sons (ainsi qu avec les sensations tactiles et les retours proprioceptifs délivrés par les gestes). C est le rôle des «premiers pas» de la parole, des vocalisations des premiers mois jusqu au babillage canonique qui apparaît à 7 mois sous l action des oscillations de la mâchoire, et qui conduira au contrôle de la langue et des lèvres pour produire les premières consonnes plosives. Il lui faudra ensuite être capable de reproduire, soit par sélection d actions produites au cours de l exploration, soit par un mécanisme d imitation qui semble attesté en neurophysiologie, les actions 2
de ses congénères, pour apprendre sa langue : voyelles et consonnes, lexique, syntaxe et prosodie. Cet apprentissage peut dans un premier temps se faire par guidage d un «maître» qui produit les syllabes adéquates. Mais il devra à terme se faire par un processus d interaction plus réaliste, qui combine à une scène visuelle une chaîne parlée complète, incluant les mots lexicaux à apprendre («ça c est un chat ; et là, c est un oiseau»). L entrée sensorielle devra alors combiner un système d analyse de scènes visuelles, capable de localiser et d identifier des objets simples ; et un système de traitement auditif, capable d extraire des marqueurs prosodiques élémentaires permettant d isoler les composants lexicaux cibles, et d en analyser les caractéristiques spectro-temporelles. Au terme de ce parcours développemental et interactif, l androïde disposera de capacités de traitement cruciales pour la maîtrise de la parole. Il saura actionner son conduit vocal pour produire un item lexical correct. Il aura appris, au cours de son parcours d exploration et d imitation, les caractéristiques perceptives et motrices des principaux objets de sa langue, et donc il sera capable de reconnaître les phonèmes, et d associer un son, une image et un geste articulatoire. Ces capacités pourront être mises en relation avec l évolution des capacités perceptives et motrices au cours de l acquisition de la parole. Elles pourront également être plongées dans un nouveau paradigme de «vie artificielle», dans lequel plusieurs androïdes, en cherchant à communiquer, façonnent un langage acceptable et efficace. Elles feront de notre androïde à la fois un support théorique, un objet d expérimentation, et un système original de traitement de la parole et du langage, combinant synthèse, apprentissage et compréhension. I.2. Principes Nous partirons d une théorie cognitive de l acquisition de la parole, proposée par notre partenaire américain (Peter MacNeilage et Barbara Davis, de l Université d Austin), la théorie «Frame-Content» postulant que la parole est faite de deux composantes de base un cadre oscillatoire (frame) fournissant la syllabe, et un contenu segmental (content) qui vient moduler ce cadre. Selon cette théorie, ces deux composantes sont contrôlées par deux systèmes distincts, un système prémoteur mésial incluant cortex cingulaire antérieur et aire motrice supplémentaire, responsable des cyclicités endogènes (intrinsèques), et un système prémoteur latéral incluant notamment les aires de Broca et de Wernicke, en charge de l apprentissage exogène (extrinsèque) des contenus du système phonologique. Or cette théorie, bien validée par des données expérimentales, nous fournit directement un cadre de modélisation et d expérimentation robotique. En effet, le premier système endogène permet au bébé d explorer son espace sensori-moteur selon certaines routines bien définies sur lesquelles nous reviendrons, tandis que le second système, responsif, permet de mettre en œuvre des mécanismes d imitation et de tuning des gestes vocaux adaptés à l environnement (c est-à-dire compatibles avec les gestes fournis par les partenaires linguistiques). Notre travail devra donc s attacher à respecter les différentes étapes de ces deux composantes, qui s intégreront aisément dans le cadre computationnel bayésien développé par l équipe de roboticiens de ce projet. La phase d exploration permettra en effet d apprendre certaines correspondances de base entre commandes articulatoires et résultats perceptifs (auditifs, visuels, somesthésiques), et la phase d imitation sera prise en charge par un processus d inversion. I.3. Concurrences? Ce projet s inscrit dans la droite ligne de la robotique cognitive illustrée en introduction par le programme Cog du MIT. L inscription de la parole dans le champ de la robotique est clairement originale, et la coopération entre l ICP et l équipe LAPLACE-SHARP est à ce titre sans beaucoup d équivalent. Ces dernières années se sont cependant développés des projets originaux portant sur l apprentissage de comportements interactifs par des agents disposant de «têtes parlantes» leur permettant de parler et d entendre. Ainsi, le projet «Talking Heads» de Luc Steels développé conjointement au laboratoire Sony CSL et au laboratoire d Intelligence Artificielle de l Université de Bruxelles s inscrit dans une recherche d envergure portant sur les origines de l intelligence en se focalisant en particulier sur les origines de l intelligence sensori-motrice à travers des expérimentations avec des robots réels et les origines du langage et du sens, explorées principalement à travers des 3
simulations logicielles. L expérience des Têtes parlantes pose des questions dans trois domaines de recherche : 1. Comment les mots prennent-ils leur sens? 2. L intelligence artificielle est-elle possible? 3. Comment les machines devraient-elles interagir avec des humains? Ces questions sont posées à travers un environnement technologique convivial hautement élaboré. De même, les travaux de Deb Roy, élève d Alex Pentland au MIT Media Laboratory, visent à créer des machines capables d apprendre à communiquer avec des humains et comme des humains, d acquérir des concepts, des mots et une grammaire par des mécanismes d interaction naturelle avec des partenaires, en développant et intégrant des algorithmes d apprentissage, des processeurs de parole, des processeurs visuels, et des robots. Cette équipe s engage également dans le développement d applications de systèmes apprenants pour la réalisation d interfaces homme-machine multilingues adaptatives. Ces projets, avec lesquels nous sommes en relation actuellement informelle, fournissent un environnement comparatif qui sera fort utile à nos travaux. Mais nous nous distinguons clairement d eux par le lien fort que nous voulons établir avec des données phonétiques et cognitives réelles : mise en relation des capacités de notre androïde et des étapes de son développement avec les données développementales disponibles, notamment grâce à la collaboration avec Austin. C est ce point qui va d ailleurs fournir le «test» de notre projet. I.4. Test Le critère de succès de notre travail est simple. Il s agira de comparer les «paroles» de notre bébé androïde à celles de bébés humains. Plus précisément, nous disposons, à l ICP et à Austin, de données acoustiques et parfois articulatoires sur les productions de bébés, des premières vocalisations vers 4 mois, jusqu aux premiers mots à partir de 12 mois, en passant par le babillage canonique vers 7 mois. L objectif principal est de faire passer notre androïde à travers ces diverses étapes, et de tester à chaque étape la conformité de ses productions par rapport à ses modèles humains. Il s agira ainsi de savoir comment passer d une étape à la suivante, et donc comment acquérir la maîtrise progressive d un appareil phonatoire, jusqu à produire des enchaînements de gestes qui permettent de produire des mots. Si nous parvenons à réaliser un bébé androïde capable de respecter correctement ces étapes, nous pourrons alors étudier ce qu il a réellement appris en termes de correspondances sensori-motrices, et l utiliser comme système d imitation, de traitement et de communication. 4
II. «Comment?» La réalisation d un androïde doué de parole II.1. Acquis Notre projet repose sur trois ensembles d acquis ou de données, fournis chacun par un des partenaires : une tête parlante constituée d actionneurs et de capteurs, entièrement simulée numériquement, développée à l ICP ; un environnement théorique et technique pour la robotique développé par l équipe LAPLACE-SHARP, qui permettra de contrôler cette tête parlante et de lui apprendre à communiquer ; et enfin, un important corpus de données sur l acquisition du langage, analysé et théorisé par les spécialistes du développement d Austin-USA (l ICP est également en train d acquérir une base et de l analyser). La tête parlante de l ICP La tête parlante est en développement à l ICP depuis de nombreuses années. Elle est constituée principalement d un modèle articulatoire actionné par des commandes interprétables en termes musculaires, et capable de produire des sons grâce à un modèle acoustique ; ainsi que d une série de capteurs permettant d observer et d analyser les productions du modèle, ou celles d autres agents humains ou artificiels (Fig. 1). Nous allons décrire plus précisément ces divers composants. Figure 1 Le robot parlant de l ICP A gauche, le conduit vocal avec ses sept actionneurs : 2 pour les lèvres (en gris), 3 pour la langue (en jaune), 1 pour la mâchoire (en bleu), un pour le larynx (en rouge). A droite, les 3 capteurs disponibles sur le robot : de haut en bas, un système auditif, estimant des fonctions de transfert des sons produits ou perçus, ou leur maxima (formants, correspondant aux résonances) ; un système visuel, percevant la forme des lèvres de l interlocuteur ; et un système tactile, capable de sentir les contacts de la langue sur le palais. 5
Le modèle articulatoire VLAM (Variable Linear Articulatory Model) est une adaptation du modèle SMIP (Speech Maps Interactive Plant) à l anatomie du conduit vocal infantile (Boë et al., 1994 ; Boë, 1999). Le modèle SMIP se base, essentiellement, sur l analyse en composantes principales (ACP) de la description, dans un repère semi-polaire, de 519 contours sagittaux du conduit vocal d un locuteur adulte en action (Maeda, 1990). Ces contours sont extraits de radiographies recueillies durant la prononciation de 10 phrases françaises. Les sept premiers facteurs de l analyse permettent d expliquer 88 % de la variance du contour observé. Ils correspondent chacun à un degré de liberté de l appareil de production : mandibule («Jaw», J), larynx («Larynx», Lx), corps («Tongue Body», Tb), dos («Tongue Dorsum», Td) et pointe («Tongue Tip», Tt) de la langue, séparation («Lip Height», LH) et protrusion («Lip Protrusion», LP) des lèvres. Le poids relatif de chaque variable a été normalisé sur la base de données. La forme des lèvres est retrouvée grâce à un modèle élaboré par Abry et Boë (1986). La combinaison linéaire des 7 paramètres de commande permet la régénération de la coupe sagittale et du contour labial de la configuration articulatoire correspondante. L estimation de la fonction d aire du conduit utilise un jeu de coefficients liés à la forme variable des sections de ce résonateur. Les formants sont les pôles de la fonction de transfert du système. Une procédure fournit les coordonnées du point le plus haut de la langue (Xh, Yh), le lieu (Xc) et l aire (Ac) de la constriction le long du conduit vocal ainsi que l aire aux lèvres (Al). Dans VLAM, la coupe sagittale adulte subit un «rajeunissement». Sans modifier la valeur des 7 commandes articulatoires, la longueur des cavités antérieure et pharyngale est réduite selon leur taux de croissance caractéristique, tout en conservant leur forme d origine. Une interpolation permet de recouvrer la zone manquante. L estimation des taux de croissance se base sur des mesures crânio-faciales effectuées par Goldstein (Boë et Maeda, 1998). La fréquence fondamentale suit une fonction de l âge. VLAM permet ainsi de simuler des sons émis par un bébé, un enfant, une femme ou un homme, et de tester leurs caractéristiques acoustiques et perceptives (Ménard et al., 2001). Cette tête est équipée de trois types de «capteurs» (là encore, sous forme de simulations numériques pour l essentiel). Ces capteurs permettent de caractériser, soit les productions propres de l androïde, soit celles de partenaires qui peuvent fournir des cibles à imiter. D abord, un capteur audio permet d analyser les caractéristiques acoustiques des gestes produits ou à produire. Pour les gestes produits par l androïde, le capteur audio est alimenté par le modèle acoustique qui fournit le son ou ses caractéristiques spectro-temporelles. Pour les gestes à imiter, c est bien sûr par un microphone que passe la saisie, avant analyse. L analyse auditive est alors réalisée par un système à deux composantes, l une focalisée sur la détection d événements temporels, l autre sur le calcul de propriétés spectrales (notamment, les formants). Ensuite, un capteur visuel est simulé en fournissant pour chaque geste à imiter ses caractéristiques labiales (forme des lèvres, soigneusement analysées par un système d acquisition de contours labiaux très performant développé au laboratoire, puis caractérisées par des paramètres synthétiques tels que protrusion, ouverture, étirement, etc) (Lallouache, 1990). Enfin, nous avons développé récemment un simulateur de capteur tactile permettant à l androïde de sentir sa langue sur son palais, et d analyser les contacts correspondants ( et Boë, 2000). La robotique bayésienne de LAPLACE-SHARP Le problème qui se pose est alors de fournir au robot un cadre computationnel qui lui permette d apprendre les relations entre actionneurs et capteurs à partir d un jeu d exploration adéquat, puis d exploiter ces connaissances acquises pour être capable d agir efficacement, c est-à-dire de percevoir, d imiter, de mémoriser, et finalement de produire les gestes de son langage oral. Nous utiliserons pour ce faire le cadre bayésien défini par l équipe LAPLACE-SHARP de Pierre Bessière (Bessière et al., 1998 ; Lebeltel et al., 2001). Dans ce cadre, on considère que le problème fondamental qu un système sensori-moteur doit résoudre est l'incomplétude. Tout modèle, toute «représentation» d'un phénomène physique, est irrémédiablement incomplet. Il existe toujours des facteurs qui ne sont pas pris en compte les variables cachées : le phénomène et le modèle ne se comportent jamais exactement de la même manière. L'inévitable incomplétude des modèles induit directement un sous-problème majeur : l'incertitude. L'influence de ces variables cachées «brouille» les données sensori-motrices. Pour un même état du modèle, différentes observations sensorielles ou différents effets moteurs sont possibles à cause des facteurs non pris en compte. L'incertitude apparaît et le système sensori-moteur va devoir être capable de raisonner et de décider dans ce contexte incertain. L'inférence et l'apprentissage bayésiens 6
(cf. E.T. Jaynes, Probability Theory: The Logic of Science) sont précisément destinés à permettre le raisonnement rationnel dans de telles situations d'incomplétude et d'incertitude. L'apprentissage et les techniques de maximum d'entropie permettent de transformer rationnellement l'incomplétude (ce qui n'a pas été explicitement modélisé) en incertitude. La méthode de programmation proposée comprend les deux grandes étapes suivantes : 1. Phase de Description : Elle fournit un moyen effectif pour calculer la distribution conjointe de l ensemble des variables attribuées au système sensori-moteur, sachant des connaissances préalables et un jeu de données expérimentales. 1. a. Spécification : L on fournit au système des connaissances préalables structurelles, de dépendance et a priori. Choix des variables pertinentes, de leur domaine de variation et de leur discrétisation. Ce sont les connaissances préalables de la structure du système. Décomposition de la probabilité conjointe de l ensemble des variables en un produit de distributions plus simples. Des connaissances préalables de dépendance entre certaines variables permettent de choisir la décomposition la plus représentative du problème au sein de l univers des possibles. La distribution de probabilité conjointe prend le nom de structure de dépendance. Définition des formes paramétriques de chacune des distributions composant la structure de dépendance. Ce choix se base sur leur connaissance a priori. 1. b. Identification des paramètres libres des sous-distributions de la structure de dépendance par un apprentissage qui fournit au robot ses connaissances expérimentales. La structure de dépendance prend le nom de description. Elle rend compte des dépendances observables. 2. Phase d Utilisation : Une question probabiliste est soumise à la description obtenue dans la première phase. La représentation dont dispose le robot lui permet d inférer le résultat sensoriel d une action donnée et les commandes motrices pour atteindre une situation sensorielle désirée. En effet, la connaissance des valeurs de certaines variables permet de prédire les valeurs les plus probables des autres variables. En résumé : Les compétences du système sensori-moteur sont modélisées par la distribution de probabilité conjointe des paramètres articulatoires et perceptifs qui le constituent. La décomposition de cette distribution fournit une structure statistique exprimant les relations d interdépendance entre ses variables motrices et sensorielles. Ces relations perception-action se basent sur des considérations d indépendance conditionnelle entre variables et s expriment, essentiellement, dans le choix de la décomposition de la distribution conjointe. Le modèle s ancre dans le «réel» via un ensemble de données d apprentissages qui permettent d instancier les distributions de probabilité figurant dans sa loi de décomposition (ou structure de dépendance). Le robot résultant est interrogé par l intermédiaire de sa description effective. Les performances de l androïde sont intrinsèquement liées à son expérience et à la «finesse» de sa structure. Le parcours développemental d Austin Le point clé est alors de définir un parcours d exploration / apprentissage approprié. En effet, il est clair que le bébé explore son espace sensori-moteur dans les premières années de sa vie d être humain parlant, mais qu il ne parcourt cet espace ni exhaustivement, ni aléatoirement. Au contraire, le parcours semble suivre une séquence d étapes assez reproductibles, allant d une simple oscillation mandibulaire vers 7 mois (le «babillage canonique») à une maîtrise progressive des contacts locaux pour les consonnes, puis des formes globales du conduit vocal pour les voyelles. Ce parcours a été théorisé à l Université d Austin-USA par MacNeilage et Davis pour le babillage canonique (Théorie «Frame- Content») (MacNeilage, 1998 ; MacNeilage et Davis, 2000), et développé récemment au sein de l ICP par Abry et coll. Il nous fournira donc une occasion unique de «programmer» notre androïde bébé de manière conforme aux données, et de comparer ses performances à celles de ses «cousins» humains. 7
II.2. Méthodologie La réalisation de l androïde se fera en plusieurs étapes successives, qui permettront chacune de valider la progression du travail et de fournir des rendez-vous collaboratifs. T0 Un prototype d androïde capable de vocaliser et d imiter Au cours du stage de DEA de Jihene Serkhane co-encadré par J.L. et P. Bessière, et qui se poursuivra par une thèse commençant en septembre 2001, nous avons développé un prototype de système appliquant l apprentissage bayésien sur la tête parlante. Dans un premier temps, nous avons étudié comment les données de vocalisation et d imitation pré-babillage canonique de Patricia Kuhl (Kuhl et Meltzoff, 1998) et les données de babillage canonique de notre partenaire Barbara Davis pouvaient se «projeter» dans notre modèle, et ce que nous pouvions en apprendre. Nous avons obtenu un certain nombre de résultats préliminaires qui nous semblent encourageants pour la suite de notre projet. Nous avons ainsi pu montrer comment l androïde bébé pouvait reproduire, respectivement à 4 et 7 mois, ces différentes vocalisations. Ces données ont été ensuite associées à une position typique de la langue à l intérieur du conduit vocal. On observe que ces vocalisations correspondent à des productions centralisées, avec des constrictions assez larges, empêchant de s approcher des voyelles cardinales [i a u], et une évolution vers des voyelles moins centrales à 7-8 mois. Dans un second temps, nous avons entrepris une étude de faisabilité qui prend le relais de la modélisation bayésienne du système articulatoire adulte proposée par et al. (2001). Nous allons la décrire brièvement, à seule fin de montrer comment le couplage modèle articulatoire apprentissage bayésien peut s effectuer. Spécification Nous avons pris en considération trois jeux de variables. Les commandes articulatoires : J (mandibulaire), Tb (du corps de la langue), Td (du dos de la langue) ont été sélectionnées pour leur capacité à rendre compte des vocalisations observées à 4 mois. Les caractéristiques géométriques du conduit vocal sont : Xh et Yh (coordonnées du point le plus haut de la langue) et Al (l aire aux lèvres). Les variables auditives correspondent aux formants : F1 et F2. Décomposition Pour définir la structure de dépendance sensori-motrice, nous avons pris pour point de départ la probabilité de conjonction de toutes les variables à notre disposition : P( J Tb Td Xh Yh Al F1 F2 ). L espace des variables géométriques est à la charnière entre l articulatoire et l acoustique : ces variables permettent d une part d estimer les formants et d autre part de contraindre les commandes articulatoires. Donc : * elles prennent le rôle clef de variables indépendantes, P( J Tb Td Xh Yh Al F1 F2 ) = P( Xh Yh Al ) * P( J Tb Td F1 F2 / Xh Yh Al ) ; * la dépendance entre variables acoustiques et motrices disparaît sous la condition de connaître les valeurs des paramètres géométriques. Il vient que P( J Tb Td Xh Yh Al F1 F2 ) = P( Xh Yh Al ) * P( J Tb Td / Xh Yh Al) * P(F1 F2 / Xh Yh Al). De plus, nous avons fait les hypothèses d indépendances suivantes : H 1 : Les variables géométriques, Xh, Yh et Al, sont indépendantes les unes des autres ; H 2 : Les variables auditives, F1 et F2, sont indépendantes l une de l autre sachant les valeurs des variables géométriques ; H 3 : La commande, J, de la mandibule est indépendante de celle du corps, Tb, et du dos, Td, de la langue, sachant les valeurs des variables géométriques ; 8
H 4 : Les commandes du corps, Tb, et de la racine, Td, de la langue sont indépendantes de l aire aux lèvres, sachant la valeur de J ; H 5 : Le corps et le dos de la langue sont commandés de manière indépendante, sachant les valeurs des variables J, Xh et Yh. H 1 implique que : P( Xh Yh Al ) = P(Xh) * P(Yh) * P(Al). H 2 entraîne que : P( F1 F2 / Xh Yh Al ) = P( F1 / Xh Yh Al ) * P( F2 / Xh Yh Al ). D après H 3, P( J Tb Td / Xh Yh Al) = P( J / Xh Yh Al) * P(Tb Td / Xh Yh Al J). Selon H 4, P(Tb Td / Xh Yh Al J) = P(Tb Td / Xh Yh J). H5 se traduit par : P(Tb Td / Xh Yh J) = P(Tb / Xh Yh J) * P( Td / Xh Yh J). Ainsi, la structure de dépendance qui définit le comportement sensorimoteur de l androïde est-elle : P ( J Tb Td Xh Yh Al F1 F2 ) = P (Xh) * P (Yh) * P(Al) * P (J / Xh Yh Al) * P (Tb / Xh Yh J) * P(Td / Xh Yh J) * P (F1 / Xh Yh Al) * P (F2 / Xh Yh Al). C est cette structure de dépendance que nous avons ainsi pu paramétrer puis identifier par une phase d apprentissage consistant en une exploration de vocalisations typiques de données à 4 mois (Kuhl et Meltzoff), puis utiliser en inversion par un processus classique d inversion bayésienne défini par l équation : P (J Tb Td / (F1 = f1) (F2 = f2)) = P ( J Tb Td (F1= f) (F2 = f2)) / P((F1 = f1) (F2 = f2)) = [ Σ Xh Σ Yh Σ Al P ( J Tb Td Xh Yh Al (F1= f1) (F2 = f2) ) ] / P((F1 = f1) (F2 = f2)). où f1 et f2 sont les valeurs formantiques à reproduire, et J, Tb et Td les paramètres articulatoires à inférer par inversion, choisis par maximisation de la probabilité ci-dessus. L objectif des premiers mois de l étude (et de la thèse de J. Serkhane) sera de poursuivre les simulations, et de les discuter avec l aide de notre partenaire Barbara Davis d Austin. T1 (6 mois) Simulation du babillage canonique Le premier stade de l'émergence du contrôle du cycle caractéristique de la parole - ses véritables "premiers pas" - c'est la maîtrise de l'alternance entre phases fermées et phases ouvertes du conduit vocal, soit le babillage canonique, vers 7 mois. Le segment phasiquement contrôlé est la mandibule : c'est un contrôle global de la composante porteuse de la parole, autrement dit de l'articulateur le plus proximal du système. On reconnaît pour cette étape la composante frame de la théorie frame/content de MacNeilage et Davis. Les autres articulateurs (qui peuvent participer du contrôle tonique général) se laissent plutôt porter : les contacts qui se produisent ne semblent pas être activement contrôlés (première évidence in Munhall & Jones, 1998). Le premier objectif sera donc de simuler ces oscillations, leurs variations configurationnelles et dynamiques qui contiennent les premiers germes de différentiation des voyelles et des consonnes, et de déterminer la nature des représentations de ces 9
gestes stéréotypiques, ainsi que d étudier les associations possibles apprises par le robot entre variables sensorielles et variables motrices, et qui lui permettront de passer à une phase ultérieure plus complexe. T2 (12 mois) Le contrôle des contacts pour les plosives Au fur et à mesure que s'acquiert l'indépendance des articulateurs portés, davantage distaux, par rapport à la mandibule porteuse, on voit apparaître un meilleur contrôle des contacts comme constrictions "consonantiques". C'est un contrôle articulatoire local limité simplement à une phase, fermée, du cycle mandibulaire. C'est le cas par exemple de la coordination des segments lèvres inférieure et supérieure. La question qui se pose pour notre recherche en cours, c'est à quelle date et par quel chemin ce type de contrôle est maîtrisé, étant donné qu'il ne l'est visiblement pas à l'époque du babillage canonique. Le travail portera à la fois sur l analyse d un corpus de données accumulées à l ICP au cours des deux dernières années sur les vocalisations d enfants d âge croissant, et sur la proposition de principes fonctionnels qui puissent permettre à l androïde d acquérir ce mécanisme de contrôle des contacts, et, incidemment, de maîtrise des synergies mâchoire-lèvres et mâchoire-langue. T3 (18 mois) Le contrôle global du conduit vocal pour les voyelles Le contrôle global de tout le corps supra-glottique de la parole constitue une autre étape. Il permet de maîtriser une coarticulation de type adulte où la posture "vocalique" est anticipée dans la phase de constriction "consonantique", s'étendant au total sur toute la durée du cycle mandibulaire. C'est un contrôle global de tout le conduit vocal, sur plusieurs segments, du larynx aux lèvres, mobilisant la masse de la langue, qui produit la transition de voyelle à voyelle. Ce geste vocalique continu, décrit par Öhman (1967) comme la composante de base de la production de parole, sur laquelle les gestes consonantiques seraient surimposés, n'est donc pas du tout le premier geste contrôlé dans l'ontogenèse (Vilain et al. 2000). La date actuellement probable pour l'émergence de ce contrôle (d'après les données de coarticulation acoustique de Sussman et al., 1999), soit après la fin de la première année, coïncide avec le contrôle de l'harmonie des premiers mots (ibid.). Ce qui n'est pas sans poser de nouvelles questions sur le pourquoi d'un tel "rendez-vous", en bref sur la fonction de la coarticulation dans le développement du langage. Ce point sera au centre de nos travaux de modélisation, qui devront là encore proposer des principes d exploration conduisant à la maîtrise de ce contrôle global. A ce stade, notre androïde saura jusqu à un certain point produire des séquences de consonnes et de voyelles. Il aura également acquis une finesse de représentations sensori-motrices qui lui permettra d imiter toute une gamme de gestes de son environnement linguistique. T4 (24 mois) Les premiers mots La dernière étape de notre projet dans le cadre du présent appel d offres devrait être la capacité à produire les premiers mots, qui se caractérisent plutôt comme une simplification des séquences consonne-voyelle de l étape précédente, apparente régression marquée par des processus d harmonie vocalique ou consonantique. Un élément crucial de cette étape pourrait être la composante de mémoire à court terme appelée «boucle articulatoire», qui permet de mémoriser et, semble-t-il, d apprendre des séquences nouvelles, mais impose sans doute une simplification des contenus à mémoriser. Le travail de thèse de Marc Sato à l ICP, qui va débuter également en septembre 2001, portera précisément sur la nature de cette composante et sur quelques ingrédients de modélisation qui pourront être fournis à l androïde en fin de projet, si tout se passe bien. 10
Références Bessière, P., Dedieu, E., Lebeltel, O., Mazer, E., & Mekhnacha, K. (1998). Interprétation ou Description : proposition pour une théorie probabiliste des systèmes cognitifs sensorimoteurs, Intellectica, 26-27, 257-311. Boë, L.-J. (1999). Modelling the growth of the vocal tract vowel spaces of newly-born infants and adults, consequences for ontogenesis and phylogenesis. ISCPhS99 San Francisco. Boë, L..J. et al. (1994) : Speech Interactive Plant. La prédiction des structures sonores Rapport ICP pp. 25-46. Boë, L.-J. & Maeda, S. (1998). Modélisation de la croissance du conduit vocal. Journées d Etudes Linguistiques «la voyelle dans tout ses états», Nantes, pp.98-105 Kuhl, P. K. & Meltzoff, A. N. (1998). Infant vocalisations in response to speech : Vocal imitation and developmental change. JASA, 100 (4), pp.2425-2438 Lallouache, M.T. (1990). Un poste visage-parole. Acquisition et traitement de contours labiaux. Proceedings of the XVIII Journées d'études sur la Parole, Montréal, pp. 282-286. Lebeltel, O., Bessière, P., Diard, J., & Mazer, E. (2001). Bayesian Robot Programming, Journal of Artificial Intelligence (Submitted) MacNeilage, P. F. (1998). The Frame/Content Theory of Evolution of Speech Production. Behavioral and Brain Sciences 21 (4), pp. 499-511 MacNeilage, P.F. & Davis, B.L. (2000). On the origin of internal structure of word forms. Science, 288, 527-531. Maeda, S. (1990). Compensatory Articulation during Speech: Evidence from the Analysis and Synthesis of Vocal-Tract Shapes using Articulatory Model. In Speech Production & Speech Modelling, Ed. W. J. Harcastle & A. Marshal, Kluwer, Dordretcht, pp. 131-150 Ménard, L.,, J.-L., Boë, L.-J., Kandel, S., & Vallée, N. (2001). Auditory normalisation of French vowels synthesized by an articulatory model simulating growth from birth to adulthood, in JASA (submitted) Munhall, K. G. & Jones, J. A. (1998). Articulatory evidence for syllabic structure. Behavioral and Brain Sciences 21 (4), pp. 524-525, J.L., & Boë, L.J. (2000). Predicting palatal contacts from jaw and tongue commands: a new sensory model and its potential use in speech control. 5 th Seminar on speech production : Models and data., J.L., Boë, L.J., & Bessière, P. (2001). Speech robotics, a computational framework for the study and modelling of speech acquisition and evolution. Artificial Intelligence Journal. Sussman, H., Duder, C., Dalston, E., & Cacciatore, A. (1999). An acoustic analysis of the development of CV coarticulation: a case study. Journal of Speech, Language and Hearing Research, 42, 1080-1096. Vilain, A., Abry, C., & Badin, P. (2000). Coproduction strategies in French VCVs: confronting Ohman's model with adult and developmental articulatory data. Proc. 5 th Seminar on Speech Production, Models and Data, & CREST Workshop on Models of Speech Production: Motor Planning and Articulatory Modelling, 81-85. 11
III. «Qui?» Des spécialistes de robotique cognitive alliés à un laboratoire pluridisciplinaire étudiant et modélisant la parole, et à un partenaire américain phare dans le domaine de l acquisition du langage Ce projet regroupe un laboratoire STIC pluridisciplinaire, l Institut de la Communication Parlée, et une équipe STIC d informaticiens spécialistes de robotique cognitive, l équipe LAPLACE-SHARP. Le Département de Psychologie de l Université du Texas à Austin (équipe de Peter MacNeilage et Barbara Davis) sera étroitement associé aux résultats de ce projet, en fournissant à l androïde bébé un cadre comparatif provenant de données sur l acquisition de la parole chez le bébé. Institut de la Communication Parlée (CNRS / INPG / Univ. Stendhal / UMR 5009) Modélisation cognitive de la parole Perception / Production / Robotique de la parole Traitement de la parole audiovisuelle Phonétique / Ontogenèse et phylogenèse de la parole «Têtes parlantes» intersensorielles Jean-Luc : modélisation cognitive Louis-Jean Boë : phonétique et modélisation Christian Abry : phonétique et développement Jihene Serkhane (thèse commençant en septembre 2001) : modèle d androïde Marc Sato (thèse commençant en septembre 2001) : boucle articulatoire Depuis 1983, la recherche en Communication Parlée s'est développée à l ICP à partir des héritages de l Institut de Phonétique de la Faculté des lettres et du Laboratoire de la Communication Parlée de l ENSERG. Fusion de ces deux entités, l Institut de la Communication Parlée (CNRS UMR A 5009) a orienté ses travaux dans une optique de modélisation résolument interdisciplinaire. Aux connaissances sur les typologies et les tendances universelles des systèmes phonologiques des langues du monde, sont associées les modélisations et réalisations qui visent à tirer le meilleur parti des connaissances sur l intelligence, la dextérité et la flexibilité des systèmes de communication biologiques. Dans ce sens, l'icp a développé un axe qui fait appel aux compétences de plusieurs de ses équipes (Structure du Code, Articulatoire, Acoustique, Perception) : c'est l'émergence des structures sonores du langage, à partir des contraintes de production et de perception de la parole. Ces recherches font intervenir localement des collaborations entre sciences du langage et ingénierie de la parole, pour la modélisation de la variation naturelle des systèmes linguistiques, et entre ingénierie de la parole et robotique, pour la négociation entre système articulatoire et système acoustique et pour la «vie artificielle» d une société de robots parlants. Au niveau international, la robotique de la parole a bénéficié d'un projet Esprit-BR sur trois ans avec 14 partenaires européens (Prime ICP) qui a permis de nouer des collaborations suivies entre l'icp, l'université McGill (Montréal) et les laboratoires ATR au Japon, et le MIT. D'autre part un échange de données important s'est instauré, pour les systèmes sonores (UPSID) et les lexiques, avec le Groupe de Phonétique de l'université de Californie à Los Angeles (Ian Maddieson). En ce qui concerne le développement de la parole chez l'enfant, une première collaboration internationale a été mise en place, à l'occasion du séjour à l'icp, en 1995-96 de Carol Stoel-Gammon, de l'université de Seattle, puis avec Peter MacNeilage et Barbara Davis de l Université d Austin. Parmi les projets de recherche de l'icp, la réalisation de têtes parlantes intersensorielles, pour une parole qui soit à la fois audible et visible, participe à ces axes porteurs que sont réalité virtuelle et «vie artificielle». L'ensemble de ces recherches s'appuient sur une activité bases de données, celles-ci permettant de rassembler, de structurer (implanter) et de diffuser (par réseau) les connaissances accumulées dans différents projets de par le monde. 12
Equipe LAPLACE-SHARP IMAG Modèles aléatoires en robotique et intelligence artificielle. Théorie des systèmes cognitifs sensori-moteurs. Pierre Bessière : robotique et apprentissage + étudiants en thèse et DEA L'équipe LAPLACE-SHARP a pour problématique les modèles aléatoires en robotique et intelligence artificielle. Deux axes structurent cette recherche : les algorithmes génétiques pour la robotique et l'intelligence artificielle un algorithme génétique massivement parallèle implanté sur une machine de 128 transputers ; un algorithme de placement de processus sur les processeurs d'une architecture parallèle ; l'algorithme «fil d'ariane» de recherche de trajectoires en environnement dynamique avec obstacle ; le raisonnement probabiliste pour la robotique et l'intelligence artificielle fondements d'une théorie probabiliste des systèmes cognitifs sensori moteurs ; moteur d'inférence probabiliste ; spécification d'un système de programmation des robots autonomes base sur cette théorie ; premières expériences de validation de cette théorie et premières utilisations du système de programmation. Plus précisément, l'étude de nouvelles approches, inspirées des techniques d'évolution en milieu naturel, ainsi que leurs applications, constituent un des axes de recherche de l'équipe LAPLACE- SHARP. Les algorithmes génétiques ont déjà été utilisés par l'équipe dans le cadre d'une collaboration avec l'icp, comme méthode d'optimisation dans la prédiction des structures vocaliques. Ces méthodes sont appliquées pour simuler la «vie artificielle» d'une communauté de robots parlants, pour modéliser certains phénomènes d'apprentissage et avancer dans l'explication de l'évolution des lexiques des langues et de leur diversification. Département de Psychologie, Austin, Texas, USA Acquisition de la parole chez l enfant Théorie Frame-Content Relations avec la phylogenèse Peter MacNeilage et Barbara Davis Peter MacNeilage est professeur de psychologie à l Université du Texas à Austin. Il est depuis plus de 30 ans l un des chercheurs phares dans le domaine du contrôle de l action et de l étude de l évolution et du développement des systèmes de contrôle, notamment dans le cadre de la production de la parole. Les travaux de PeterMacNeilage et Barbara Davis sur la théorie frame-content ont fait l objet l an passé d une publication dans Science qui a fait un certain bruit («En manchette sur le net, Semaine du 24 avril 2000, http://www.sciencepresse.qc.ca/archives/man240400.html : La vérité sort de la bouche des enfants : Nous avons des fossiles dans la bouche. Ba-ba, Da-da, Ta-ta : ce sont bien plus que des babillages d'enfants. Ce sont les restes des plus anciens mots qu'aient prononcés nos ancêtres. Le langage est le propre de l'homme dit-on : il est le produit de notre cerveau. Certes. Mais il est aussi le produit de certains mouvements précis de la bouche, des lèvres et de la langue. C'est pourquoi deux chercheurs de l'université du Texas, Peter F. MacNeilage et Barbara L. Davis, se sont dit que de dégager des points communs ne devrait pas être trop difficile : après tout, le nombre de mouvements que peut opérer notre bouche pour produire des sons est relativement limité. Ne serait-il pas possible de retourner aux origines, et de trouver des sons communs à toutes les langages? Une façon comme une autre de dire que les premier mots prononcés par les humains n'étaient pas le fruit d'une très longue réflexion, mais le banal résultat des mouvements de la bouche les plus naturels qui soient.»). 13
Projets environnants et méthodologie de collaboration Les deux partenaires ICP et LAPLACE-SHARP se connaissent bien. Ils ont déjà encadré en commun des thèses (A.R. Berrah), DEA (J. Serkhane) et maîtrise (Y. Paviot), et ont été ou sont impliqués en commun dans des projets Cognitique («Les robots parlent aux robots» ; «Abispa») ainsi que dans le programme OHLL («Origine de l Homme, du Langage et des Langues», CNRS), dans lequel intervient également l équipe d Austin. L'équipe LAPLACE-SHARP est, de plus, coordinateur du projet européen BIBA («Bayesian Inspired Brain and Artefacts») en collaboration avec le LPPA du Collège de France, les Universités de Cambridge et de Londres, l'école Polytechnique Fédérale de Lausanne et le MIT. Les conditions de coopération sont donc a priori très favorables, entre des partenaires clairement complémentaires qui se connaissent et s apprécient. La collaboration devrait passer par des séminaires communs, ainsi que nous en avons déjà organisé dans le passé, des publications communes (une publication est actuellement soumise à la revue Artificial Intelligence Journal, présentant le cadre computationnel général de notre projet), et surtout par la thèse co-encadrée de J. Serkhane, qui va démarrer à la rentrée 2001. 14
IV. «Combien?» Ce projet est défini sur une durée de deux ans. Il impliquera de se doter de matériels de calcul supplémentaires (PCs), et surtout de développer au travers de missions bilatérales la collaboration avec notre partenaire américain. Un effort important d achat de livres, de participation à des congrès, et de publications, sera également entrepris autour de ce projet. Nous envisageons également le financement de vacations ou de stage post-doc de partenaires étrangers (si cela est finalement possible). Tous les financements demandés seront équirépartis entre les 2 partenaires français, et incluront frais de mission en France et aux USA pour financer la collaboration avec Austin. IV.1. Total des ressources humaines du projet ICP : Jean-Luc (DR2 CNRS), 30 % 0.6 h/a Christian Abry (Prof Univ. Stendhal), 15 % 0.3 h/a Louis-Jean Boë (IR MESRS) 15 % 0.3 h/a Jihene Serkhane (Alloc. MESRS) 100 % 2.0 h/a Marc Sato (Alloc. MESRS) 25 % 0.5 h/a LAPLACE-SHARP Pierre Bessière (CR1 CNRS), 25 % 0.5 h/a Equipe «développement du moteur d inférence bayésien» (Emmanuel Mazer, Juan-Manuel Ahuactzin, Olivier Aycard, Kamel Mekhnacha, Olivier Lebeltel, David Raulo, Christophe Coué, 5 à 10 % chacun) total 50%, soit : 1.0 h/a AUSTIN USA Peter MacNeilage, 5 % 0.1 h/a Barbara Davis, 5 % 0.1 h/a Total : 5.4 h/a IV.2. Total des ressources financières du projet (non consolidé) Demande faite au programme ROBEA : 500 kf Programme CNRS-SHS «OHLL» (50 % acquis pour 2001, 50 % sous réserve pour 2002) : 150 kf dont 50 % pour le présent projet 75 kf Programme européen EUROCORES «OMLL» (en attente de réponse) : 350 kf dont 50 % pour le présent projet 175 kf Soutien de base des laboratoires : 200 kf ACI Sciences Cognitives, projet ABISPA, 100 kf dont 50 % pour le présent projet : 50 kf ACI Neurosciences Intégratives et Computationnelles, projet «Adaptation fonctionnelle pour l acquisition de la parole et du langage chez un bébé robot» : 100 kf Total : 1100 kf IV.3. Détail de la demande Demande faite au programme ROBEA : 500 kf sur deux ans, soit Un PC multiprocesseurs environné : 100 kf 2 stations de travail : 40 kf Fonctionnement et matériel pour expérimentation (imagerie, matériel audiovisuel, etc) : 150 kf Logiciels de calcul scientifique : 50 kf Missions : 50 kf Frais de publications, achat de livres : 35 kf Administration et gestion : 75 kf 15