PI TCAN Programme interdisciplinaire CNRS «Traitement des connaissances, apprentissage et NTIC» RAPPORT DE FIN DE PROJET APPEL 2003 Septembre 2005 Titre du projet : Modélisation computationnelle de l'apprentissage des mots écrits Sigle : Thème(s) de référence de l appel dont relève ce projet : Modélisation de processus cognitifs humains Responsable scientifique : Jonathan GRAINGER, Directeur de laboratoire Laboratoire : Laboratoire de Psychologie Cognitive, CNRS UMR 6146 Université de Provence, centre Saint Charles, case D 3 place Victor Hugo, 13331 MARSEILLE cedex 3 Équipes partenaires : Hervé Glotin, Maître de Conférences, Systèmes Information Signal Université de Toulon et du Var (UTV), BP 132-83957 La Garde Cedex Bernard Lété, Maître de Conférences, INRP & Université de Lyon 2 Laboratoire d'etude des Mécanismes Cognitifs/ Laboratoire Dynamique du Langage (CNRS UMR 5596), 5 avenue Pierre Mendès-France, 69676 - Bron cedex Claude Touzet, Maître de Conférences, Laboratoire de Neurobiologie Intégrative et Adaptative (CNRS UMR 6149), Université de Provence, 13331 Marseille cedex 3 Organisme gestionnaire de l'opération : CNRS, Délégation Provence, 31 chemin J. Aiguier, 13402 Marseille Cedex 9 Budget Budget total du projet Soutien du programme TCAN Autres soutiens obtenus 50000 50000
1. Table des matières 1. Table des matières 2 2. Liste des participants 3 2.1. Composition de l équipe du responsable 3 2.2. Composition des autres équipes participant au programme de recherche 3 3. Rapport scientifique 4 3.1. Rappel du projet (1 page maximum) 4 3.1.1. Objectifs généraux (1 page maximum) 4 3.1.2. Programme et échéancier des travaux prévus (1/2 page maximum) 4 3.1.3. Calendrier (1/2 page maximum) Erreur! Signet non défini. 3.2. Expériences réalisées, résultats obtenus 6 3.3. Discussion des résultats 7 3.4. Publications et logiciels dus au projet 8 3.5. Suites envisagées pour le projets (projets nationaux, européens ou autres ) 9 2
2. Liste des participants 2.1. Composition de l équipe du responsable Laboratoire : Laboratoire de Psychologie Cognitive, UMR6146,Université de Provence, centre Saint Charles, case D, 3 place Victor Hugo, 13331 MARSEILLE cedex 3 2.2. Composition des autres équipes participant au programme de recherche Laboratoire : Laboratoire Systèmes d'information et Signal, Université de Toulon et du Var (UTV), BP 132-83957 La Garde Cedex Laboratoire : Laboratoire d'etude des Mécanismes Cognitifs/ Laboratoire Dynamique du Langage (CNRS UMR 5596), 5 avenue Pierre Mendès-France, 69676 - Bron cedex Laboratoire : Laboratoire de Neurobiologie Intégrative et Adaptative (CNRS UMR 6149), Université de Provence, 13331 Marseille cedex 3 Nom Grade Discipline Institution de rattachement Hommemois GRAINGER Jonathan DR1 Psychologie Cognitive CNRS 6 ZIEGLER Johannes DR2 Psychologie Cognitive CNRS 6 DUFAU Stéphane IE2 Psychologie Cognitive CNRS 12 Nom Grade Discipline Institution de rattachement Hommemois GLOTIN Hervé MCF Informatique Université Toulon 6 Nom Grade Discipline Institution de rattachement Hommemois LETE Bernard MCF Linguistique Université Lyon 2 6 Nom Grade Discipline Institution de rattachement Hommemois TOUZET Claude MCF Neurobiologie Université Provence 6 3
3.1. Rappel du projet (1/2 page maximum) CENTRE NATIONAL DE LA RECHERCHE SCIENTIFIQUE 3. Rapport scientifique Comprendre les mécanismes de traitement de l information impliqués dans la reconnaissance de mots écrits, et déterminer comment ces mécanismes se développent au cours de l apprentissage de la lecture, sont des objectifs de recherche d un intérêt général. S il existe de nombreuses tentatives de modélisation des processus cognitifs impliqués dans la reconnaissance de mots écrits à l état stable chez le lecteur expert, il y a relativement peu de travaux sur la modélisation de l apprentissage de mots écrits. Ces travaux de modélisation devraient nous permettre de mieux cerner un certain nombre de phénomènes qui restent sans explication satisfaisante à l'heure actuelle, notamment en ce qui concerne l'influence de l'âge d'acquisition des connaissances sur la robustesse des représentations en mémoire de celles-ci. 3.1.1. Objectifs généraux (1/2 page maximum) indiquer les modifications éventuelles par rapport aux objectifs initiaux Notre objectif global est le développement d un modèle de l apprentissage de mots écrits, avec une focalisation particulière sur les aspects purement orthographiques du traitement. Le succès d un tel projet dépend i) de l utilisation d un régime d entraînement réaliste, ii) de l utilisation d un bon système de codage en entrée, et iii) de l utilisation d une architecture et d algorithmes bien adaptés au problème. Nous pouvons donc définir trois objectifs intermédiaires: 1) Développement d un régime d entraînement réaliste à partir d analyses de corpus. 2) Evaluation d une nouvelle méthode pour le codage orthographique. 3) Evaluation d une classe de modèles pour l apprentissage non-supervisé - ART. Des comparaisons entre différents modèles ont commencé à être réalisé à l'issu du développement du dernier point. 3.1.2. Programme et échéancier des travaux prévus (1/2 page maximum) indiquer les modifications éventuelles par rapport au calendrier initial 1. Préparer le régime d apprentissage à partir des bases de données lexicales récentes (Manulex; Lété et al., 2003). 2. Implémenter une nouvelle technique de codage orthographique, et évaluer ce système de codage. 3. Implémenter une première version du modèle ART (Carpenter & Grossberg, 1987) pour l apprentissage de mots écrits, et entraîner de ce modèle. 4. Evaluer ce modèle après entraînement. Le modèle a été testé avec différents ensembles de stimuli ayant fait l objet de recherches empiriques antérieures. 5. Modifier le modèle au niveau des paramètres, et si nécessaire, au niveau des algorithmes et/ou de l architecture du modèle. 7/03 12/03: Développement du régime d apprentissage, et implémentation du système de codage orthographique dans le modèle ART. 1/04 7/04: Entraînement du modèle et premières évaluations de la performance du modèle. Ajustement des paramètres, ou modifications plus importantes au niveau architectural et/ou algorithmique. 4
8/04 12/04: Suite des entraînements et des tests du modèle. 1/05 7/05: Evaluation finale du modèle, et rédaction d articles et de communications rapportant les résultats de ces recherches. La mise en oeuvre des modifications ainsi que leur évaluation sont toujours en cours. La rédaction de communications se poursuit également. 5
3.2. Expériences réalisées, résultats obtenus et discussion De Art1 à la carte auto-organisatrice en passant par Quick-Art1 et Art2 Nous avons commencé par évaluer le modèle Art1 (Adaptive Resonance Theory) en tant que support pour l'apprentissage non-supervisé de la reconnaissance orthographique des mots. Ce modèle (Art1) présente quelques propriétés que nous considérons comme importantes pour une modélisation plausible de l'apprentissage de la lecture : - Plasticité : une mémorisation est possible qui utilise comme variables internes les poids du réseau et qui créée à la demande des neurones sur la couche de sortie pour les nouveaux mots ; - Stabilité : le nombre de neurones créé est limité par la mise en place d'une "résonance" qui vérifie l'adéquation entre la réponse du réseau et l'entrée présentée. Notre domaine de la lecture impose une taille considérable aux entrées et sorties de notre réseau de neurones artificiels : - Couche d'entrée de 1681 neurones (codage des mots sous forme de bigrammes, 41 lettres possibles), - Couche de sortie supérieure à 40 000 neurones (un neurone pour un mot du lexique, au moins) De ce fait, les temps de calculs pour obtenir la convergence de l'algorithme d'apprentissage deviennent des facteurs limitants. Puisque nous souhaitons utiliser une base d'entraînement réaliste, notre base doit faire apparaître à la fois l'ordre d'apparition (à la base de l'influence de l âge de l acquisition) et la fréquence d'occurrences des mots dans les manuels successifs présentés aux enfants. La base d'apprentissage est donc composée de plusieurs centaines de milliers de mots. Les temps de calcul mesurés pour le modèle Art1 sont d'environ UNE semaine sur une machine dédiée. Notre problématique n'est cependant pas liée à Art1 ou un quelconque modèle, c'est pourquoi nous avons aussi développé un simulateur du modèle baptisé Art2 qui permet de prendre en compte des entrées réelles (et non pas seulement binaires comme pour Art1). Cette amélioration permet de tenir compte de la position des lettres dans le mot au moment de la formation des différents bigrammes. Les bigrammes sont donc pondérés par un facteur représentatif de la lisibilité des lettres composant le mot. Les temps de calculs de Art2 sont ainsi très importants, similaires à ceux de Art1. Du fait du nombre important de paramètres à régler (seuil de résonance, coefficients d'apprentissage), et de l'absence de moyens autre qu'une recherche exhaustive dans l'espace des possibles pour obtenir une bonne configuration des paramètres, nous avons été amenés à imaginer et développer une version ultra-rapide de Art, que nous avons baptisé Quick-Art. Quick-Art permet de réaliser un apprentissage similaire à Art1 ou Art2 en quelques secondes. Quick-Art implante un raccourci mathématique de l'algorithme d'apprentissage et fourni en 6
une seule passe une configuration des poids identique à celle de Art1 après quelques centaines ou milliers d'itérations d'apprentissage. Il s'agit donc d'une accélération drastique de la convergence, qui cependant a un prix. En effet, la configuration trouvée par Quick-Art est équivalente à celle de Art1 ou Art2 si et seulement si l'on ne tient pas compte de l'ordre d'apparition des exemples dans la base d'apprentissage. Cette condition peut sembler peu contraignante pour la majorité des applications actuelles du modèle Art, cependant dans notre cas précis, elle nous empêche de pouvoir étudier très précisément l'effet de l'âge d'acquisition. Nous avons contourné le problème en réalisant des apprentissages successifs sur les différents manuels (cf. résultats), mais de fait les résultats obtenus avec Quick-Art ne peuvent pas être utilisés en lieu et place de ceux obtenus avec Art1 ou Art2. Durant nos expérimentations avec le modèle Art (Art1, Art2, Quick-Art et), nous avons pu nous rendre compte de la difficulté qu'ont ces modèles à représenter facilement les notions de compétition locale entre mots voisins orthographiquement. A chaque fois, nous avons dû considérer une valeur telle que le rang (nombre de neurones de sortie présentant une activité supérieure au neurone correspondant effectivement au mot présenté) comme représentative d'un délai d'identification. Il s'agit donc de donner à une valeur issue de la combinatoire une signification temporelle. Cette transformation "spatio-temporelle" est totalement arbitraire, et soulève nombre d'interrogations. En particulier, nous avons dû limiter artificiellement le périmètre dans lequel s'exerce la notion de rang aux seuls neurones effectivement voisins orthographiquement. C'est avec l'objectif de nous soustraire à cette contrainte de "rang" que nous avons choisi d'évaluer le modèle de la carte auto-organisatrice (Kohonen, 1982). Ce modèle, inspiré de l'organisation des cartes corticales, met en place un voisinage local. Chaque neurone n'est connecté qu'à quelques-uns de ses plus proches voisins (4 voisins par neurone seulement dans le cas d'une carte auto-organisatrice à 2 dimensions). Les problèmes liés aux temps de calculs considérables demeurent. La carte auto-organisatrice permet d'obtenir des résultats de même nature que nos précédents modèles, en utilisant pour représenter le délai d'identification la différence des valeurs d'activation des neurones de la couche de sortie. L'analogie entre valeurs d'activation des neurones et délai d'identification nous semble beaucoup moins sujette à caution, et le modèle de carte auto-organisatrice apparaît de fait aujourd'hui comme le plus plausible (biologiquement) pour implanter l'apprentissage de la reconnaissance orthographique des mots écrits. Le régime d'apprentissage Voir fichier annexe "RapportFinal_GRAINGER_annexe1.pdf" Evaluation des modèles ART Voir fichier annexe " RapportFinal_GRAINGER_annexe2.pdf " Evolution des modèles et comparaison inter-modèles Voir fichier annexe " RapportFinal_GRAINGER_annexe3.pdf " 7
3.3. Publications et logiciels dus au projet Article Deux articles sont en préparation. L'étude des algorithmes de ART sera soumise à Neural Networks. L'extension de ART, avec comparaison inter-modèles, sera soumise à Computational Biology. Communication écrite - Dufau S., Touzet C., Grainger J. Self-organizing map supports open bigram coding of words. XIII colloque EDSVS. Marseille juin 2005. Communication orale - Dufau S., Touzet C., Grainger J. Ecrire pour le Web: ce que nous apprend la modélisation de la reconnaissance orthographique des mots. Colloque lire, écrire, comprendre et apprendre sur Internet. Aix-en-provence Mai 2005. Les actes du colloque font l'objet d'un publication sous forme de chapitres d'un livre à paraître début 2006. Notre chapitre est en cours de révision. Le code informatique écrit lors de ce projet n'a pas vocation à intégrer un éventuel logiciel à venir. 8
3.4. Suites envisagées pour le projets (projets nationaux, européens ou autres ) Des demandes de financement ont été formulées auprès de l'anr. Le groupe constitué à l'occasion du projet TCAN continue de travailler à raison d'une réunion tous les mois environ. 9