PI TCAN Programme interdisciplinaire CNRS «Traitement des connaissances, apprentissage et NTIC» RAPPORT DE FIN DE PROJET

Documents pareils
Ecrire pour le Web: ce que nous apprend la modélisation de la reconnaissance orthographique des mots

Optimisation de la compression fractale D images basée sur les réseaux de neurones

Programme de la formation. Écrit : 72hdepréparation aux épreuves d admissibilité au CRPE

Laboratoire d informatique Gaspard-Monge UMR Journée Labex Bézout- ANSES

BABEL LEXIS : UN SYSTÈME ÉVOLUTIF PERMETTANT LA CRÉATION, LE STOCKAGE ET LA CONSULTATION D OBJETS HYPERMÉDIAS

Table des matières CID CID CID CID CID

I- Définitions des signaux.

IN2P3 et PLUME Valorisation de la production de logiciels

CHAPITRE V SELECTION DES CONSULTANTS ET D AUTRES PRESTATAIRES DE SERVICES

1. Le service Commercial

Analyse des trajectoires acceptables en approche de virage assistance aux conducteurs

Teste et mesure vos réseaux et vos applicatifs en toute indépendance

2. Activités et Modèles de développement en Génie Logiciel

Demande de transformation de la formation qualifiante TEMIR : Technicien En Maintenance Informatique et Réseaux en diplôme d université (DU)

Travaux pratiques. Compression en codage de Huffman Organisation d un projet de programmation

ETAT CIVIL FONCTIONS

Calcul des indicateurs de sonie : revue des algorithmes et implémentation

Machines virtuelles Cours 1 : Introduction

ANNEXE 2 : Liste des questions entre le directeur et l étudiant

UEO11 COURS/TD 1. nombres entiers et réels codés en mémoire centrale. Caractères alphabétiques et caractères spéciaux.

OuverTure et INTégrATION

TRAITEMENT DES DONNEES MANQUANTES AU MOYEN DE L ALGORITHME DE KOHONEN

Le logiciel EduAnatomist.

Degré de confiance pour les indicateurs de performance : degré de fiabilité du processus de production et écart significatif 1

L utilisation d un réseau de neurones pour optimiser la gestion d un firewall

23. Interprétation clinique des mesures de l effet traitement

Débouchés professionnels

CONTRAT DE PRESTATION DE RECHERCHE

PROBLEMES D'ORDONNANCEMENT AVEC RESSOURCES

Annexe : La Programmation Informatique

Estimation des charges. «Le travail se dilate jusqu à remplir le temps disponible»

Production des Services d Assurance non-vie selon le SCN 2008

LA QUALITE DU LOGICIEL

Master CCI. Compétences Complémentaires en Informatique. Livret de l étudiant

La conversion de données : Convertisseur Analogique Numérique (CAN) Convertisseur Numérique Analogique (CNA)

L apprentissage automatique

Tout au long de votre cursus Quel métier futur? Dans quel secteur d activité? En fonction de vos goûts et aptitudes et du «niveau d emploi» dans ce

Jade. Projet Intelligence Artificielle «Devine à quoi je pense»

INTRODUCTION A L ELECTRONIQUE NUMERIQUE ECHANTILLONNAGE ET QUANTIFICATION I. ARCHITECTURE DE L ELECRONIQUE NUMERIQUE

ALGORITHME GENETIQUE ET MODELE DE SIMULATION POUR L'ORDONNANCEMENT D'UN ATELIER DISCONTINU DE CHIMIE

EFIDEM easy messaging systems

4.2 Unités d enseignement du M1

Master Informatique Aix-Marseille Université

Propagation sur réseau statique et dynamique

Méthodologies de développement de logiciels de gestion

1. Vocabulaire : Introduction au tableau élémentaire

ENSEIGNEMENT DES SCIENCES ET DE LA TECHNOLOGIE A L ECOLE PRIMAIRE : QUELLE DEMARCHE?

Méthodes de développement. Analyse des exigences (spécification)

Isabelle GONZALEZ Orthophoniste - Mérignac

ACCREDITATION ESPE - ACADEMIE DE DIJON 2013

Évaluation et implémentation des langages

PLAN DE COURS DÉPARTEMENT ÉLECTRONIQUE INDUSTRIELLE. TITRE DU COURS Ordinateur Outil RA 1-4-2

Apprentissage Automatique

APRES LA SECONDE. Choisir une série de Baccalauréat

RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/ Présentation. 1.2 Ressources

Enregistrement et transformation du son. S. Natkin Novembre 2001

CyberFoyer du CMI CMI 39 rue F. Joliot-Curie Marseille cedex 13


TEXT MINING von 7

Cours 1 : La compilation

La Recherche du Point Optimum de Fonctionnement d un Générateur Photovoltaïque en Utilisant les Réseaux NEURO-FLOUS

UCL. Université catholique de Louvain. Métro Web : logiciel de support à l'évaluation de la qualité ergonomique des sites web.

Chapitre 10 Arithmétique réelle

CRÉER UNE BASE DE DONNÉES AVEC OPEN OFFICE BASE

Informatique et sciences du numérique

Les apports de l informatique. Aux autres disciplines

Présentation de la future plateforme internet du Réseau francophone de l'innovation. Réunion de lancement OIF 9-10 juillet 2013

Efficacité énergétique des réseaux de cœur et d accès

L AUTOMATISME LE SIGNAL

Mention : En débat

LA PROCEDURE D'EVALUATION A.NA.PSY.p.e. EST LE RESULTAT D'UNE RECHERCHE

Fête de la science Initiation au traitement des images

CURRICULUM VITAE PARCOURS PROFESSIONNEL

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

Devenez expert en éducation. Une formation d excellence avec le master Métiers de l Enseignement, de l Education et de la Formation

ANeXiti 33 quai Arloing lyon cedex

Introduction. I Étude rapide du réseau - Apprentissage. II Application à la reconnaissance des notes.

Dossier justificatif des travaux de R&D déclarés au titre du CIR

Etudier l informatique

Les clés de l'innovation. Une formation sur mesure pour les adhérents du Pôle Agri Sud-Ouest Innovation

Le chiffre est le signe, le nombre est la valeur.

Sujet Solution de sauvegarde de serveurs et postes de travail avec BackupPC et Bacula. par ALIXEN

Rapport de certification ANSSI-CSPN-2010/07. KeePass Version 2.10 Portable

Coup de Projecteur sur les Réseaux de Neurones

Nom-Projet MODELE PLAN DE MANAGEMENT DE PROJET

Baccalauréat technologique

Projet de programme pour l enseignement d exploration de la classe de 2 nde : Informatique et création numérique

Polymorphisme, la classe Object, les package et la visibilité en Java... 1

QUELQUES CONSEILS POUR LA MAINTENANCE DE VOTRE ORDINATEUR

Comment faire plus d'argent cet été!

L objectif de ce cycle est de former des techniciens supérieurs spécialisés dans l administration et la gestion de bases de données et des réseaux.

Université Libre de Tunis

L informatique comme discipline au gymnase. Renato Renner Institut für Theoretische Physik ETH Zürich

Contributions à l expérimentation sur les systèmes distribués de grande taille

Tableau 1 : Structure du tableau des données individuelles. INDIV B i1 1 i2 2 i3 2 i4 1 i5 2 i6 2 i7 1 i8 1

Section romande de la société Suisse-Chine

Vers l'ordinateur quantique

SUPPLEMENT AU DIPLOME

LibQual+ à l'ubo : une enquête de satisfaction des usagers en bibliothèque du 16 mars au 4 avril 2009

Transcription:

PI TCAN Programme interdisciplinaire CNRS «Traitement des connaissances, apprentissage et NTIC» RAPPORT DE FIN DE PROJET APPEL 2003 Septembre 2005 Titre du projet : Modélisation computationnelle de l'apprentissage des mots écrits Sigle : Thème(s) de référence de l appel dont relève ce projet : Modélisation de processus cognitifs humains Responsable scientifique : Jonathan GRAINGER, Directeur de laboratoire Laboratoire : Laboratoire de Psychologie Cognitive, CNRS UMR 6146 Université de Provence, centre Saint Charles, case D 3 place Victor Hugo, 13331 MARSEILLE cedex 3 Équipes partenaires : Hervé Glotin, Maître de Conférences, Systèmes Information Signal Université de Toulon et du Var (UTV), BP 132-83957 La Garde Cedex Bernard Lété, Maître de Conférences, INRP & Université de Lyon 2 Laboratoire d'etude des Mécanismes Cognitifs/ Laboratoire Dynamique du Langage (CNRS UMR 5596), 5 avenue Pierre Mendès-France, 69676 - Bron cedex Claude Touzet, Maître de Conférences, Laboratoire de Neurobiologie Intégrative et Adaptative (CNRS UMR 6149), Université de Provence, 13331 Marseille cedex 3 Organisme gestionnaire de l'opération : CNRS, Délégation Provence, 31 chemin J. Aiguier, 13402 Marseille Cedex 9 Budget Budget total du projet Soutien du programme TCAN Autres soutiens obtenus 50000 50000

1. Table des matières 1. Table des matières 2 2. Liste des participants 3 2.1. Composition de l équipe du responsable 3 2.2. Composition des autres équipes participant au programme de recherche 3 3. Rapport scientifique 4 3.1. Rappel du projet (1 page maximum) 4 3.1.1. Objectifs généraux (1 page maximum) 4 3.1.2. Programme et échéancier des travaux prévus (1/2 page maximum) 4 3.1.3. Calendrier (1/2 page maximum) Erreur! Signet non défini. 3.2. Expériences réalisées, résultats obtenus 6 3.3. Discussion des résultats 7 3.4. Publications et logiciels dus au projet 8 3.5. Suites envisagées pour le projets (projets nationaux, européens ou autres ) 9 2

2. Liste des participants 2.1. Composition de l équipe du responsable Laboratoire : Laboratoire de Psychologie Cognitive, UMR6146,Université de Provence, centre Saint Charles, case D, 3 place Victor Hugo, 13331 MARSEILLE cedex 3 2.2. Composition des autres équipes participant au programme de recherche Laboratoire : Laboratoire Systèmes d'information et Signal, Université de Toulon et du Var (UTV), BP 132-83957 La Garde Cedex Laboratoire : Laboratoire d'etude des Mécanismes Cognitifs/ Laboratoire Dynamique du Langage (CNRS UMR 5596), 5 avenue Pierre Mendès-France, 69676 - Bron cedex Laboratoire : Laboratoire de Neurobiologie Intégrative et Adaptative (CNRS UMR 6149), Université de Provence, 13331 Marseille cedex 3 Nom Grade Discipline Institution de rattachement Hommemois GRAINGER Jonathan DR1 Psychologie Cognitive CNRS 6 ZIEGLER Johannes DR2 Psychologie Cognitive CNRS 6 DUFAU Stéphane IE2 Psychologie Cognitive CNRS 12 Nom Grade Discipline Institution de rattachement Hommemois GLOTIN Hervé MCF Informatique Université Toulon 6 Nom Grade Discipline Institution de rattachement Hommemois LETE Bernard MCF Linguistique Université Lyon 2 6 Nom Grade Discipline Institution de rattachement Hommemois TOUZET Claude MCF Neurobiologie Université Provence 6 3

3.1. Rappel du projet (1/2 page maximum) CENTRE NATIONAL DE LA RECHERCHE SCIENTIFIQUE 3. Rapport scientifique Comprendre les mécanismes de traitement de l information impliqués dans la reconnaissance de mots écrits, et déterminer comment ces mécanismes se développent au cours de l apprentissage de la lecture, sont des objectifs de recherche d un intérêt général. S il existe de nombreuses tentatives de modélisation des processus cognitifs impliqués dans la reconnaissance de mots écrits à l état stable chez le lecteur expert, il y a relativement peu de travaux sur la modélisation de l apprentissage de mots écrits. Ces travaux de modélisation devraient nous permettre de mieux cerner un certain nombre de phénomènes qui restent sans explication satisfaisante à l'heure actuelle, notamment en ce qui concerne l'influence de l'âge d'acquisition des connaissances sur la robustesse des représentations en mémoire de celles-ci. 3.1.1. Objectifs généraux (1/2 page maximum) indiquer les modifications éventuelles par rapport aux objectifs initiaux Notre objectif global est le développement d un modèle de l apprentissage de mots écrits, avec une focalisation particulière sur les aspects purement orthographiques du traitement. Le succès d un tel projet dépend i) de l utilisation d un régime d entraînement réaliste, ii) de l utilisation d un bon système de codage en entrée, et iii) de l utilisation d une architecture et d algorithmes bien adaptés au problème. Nous pouvons donc définir trois objectifs intermédiaires: 1) Développement d un régime d entraînement réaliste à partir d analyses de corpus. 2) Evaluation d une nouvelle méthode pour le codage orthographique. 3) Evaluation d une classe de modèles pour l apprentissage non-supervisé - ART. Des comparaisons entre différents modèles ont commencé à être réalisé à l'issu du développement du dernier point. 3.1.2. Programme et échéancier des travaux prévus (1/2 page maximum) indiquer les modifications éventuelles par rapport au calendrier initial 1. Préparer le régime d apprentissage à partir des bases de données lexicales récentes (Manulex; Lété et al., 2003). 2. Implémenter une nouvelle technique de codage orthographique, et évaluer ce système de codage. 3. Implémenter une première version du modèle ART (Carpenter & Grossberg, 1987) pour l apprentissage de mots écrits, et entraîner de ce modèle. 4. Evaluer ce modèle après entraînement. Le modèle a été testé avec différents ensembles de stimuli ayant fait l objet de recherches empiriques antérieures. 5. Modifier le modèle au niveau des paramètres, et si nécessaire, au niveau des algorithmes et/ou de l architecture du modèle. 7/03 12/03: Développement du régime d apprentissage, et implémentation du système de codage orthographique dans le modèle ART. 1/04 7/04: Entraînement du modèle et premières évaluations de la performance du modèle. Ajustement des paramètres, ou modifications plus importantes au niveau architectural et/ou algorithmique. 4

8/04 12/04: Suite des entraînements et des tests du modèle. 1/05 7/05: Evaluation finale du modèle, et rédaction d articles et de communications rapportant les résultats de ces recherches. La mise en oeuvre des modifications ainsi que leur évaluation sont toujours en cours. La rédaction de communications se poursuit également. 5

3.2. Expériences réalisées, résultats obtenus et discussion De Art1 à la carte auto-organisatrice en passant par Quick-Art1 et Art2 Nous avons commencé par évaluer le modèle Art1 (Adaptive Resonance Theory) en tant que support pour l'apprentissage non-supervisé de la reconnaissance orthographique des mots. Ce modèle (Art1) présente quelques propriétés que nous considérons comme importantes pour une modélisation plausible de l'apprentissage de la lecture : - Plasticité : une mémorisation est possible qui utilise comme variables internes les poids du réseau et qui créée à la demande des neurones sur la couche de sortie pour les nouveaux mots ; - Stabilité : le nombre de neurones créé est limité par la mise en place d'une "résonance" qui vérifie l'adéquation entre la réponse du réseau et l'entrée présentée. Notre domaine de la lecture impose une taille considérable aux entrées et sorties de notre réseau de neurones artificiels : - Couche d'entrée de 1681 neurones (codage des mots sous forme de bigrammes, 41 lettres possibles), - Couche de sortie supérieure à 40 000 neurones (un neurone pour un mot du lexique, au moins) De ce fait, les temps de calculs pour obtenir la convergence de l'algorithme d'apprentissage deviennent des facteurs limitants. Puisque nous souhaitons utiliser une base d'entraînement réaliste, notre base doit faire apparaître à la fois l'ordre d'apparition (à la base de l'influence de l âge de l acquisition) et la fréquence d'occurrences des mots dans les manuels successifs présentés aux enfants. La base d'apprentissage est donc composée de plusieurs centaines de milliers de mots. Les temps de calcul mesurés pour le modèle Art1 sont d'environ UNE semaine sur une machine dédiée. Notre problématique n'est cependant pas liée à Art1 ou un quelconque modèle, c'est pourquoi nous avons aussi développé un simulateur du modèle baptisé Art2 qui permet de prendre en compte des entrées réelles (et non pas seulement binaires comme pour Art1). Cette amélioration permet de tenir compte de la position des lettres dans le mot au moment de la formation des différents bigrammes. Les bigrammes sont donc pondérés par un facteur représentatif de la lisibilité des lettres composant le mot. Les temps de calculs de Art2 sont ainsi très importants, similaires à ceux de Art1. Du fait du nombre important de paramètres à régler (seuil de résonance, coefficients d'apprentissage), et de l'absence de moyens autre qu'une recherche exhaustive dans l'espace des possibles pour obtenir une bonne configuration des paramètres, nous avons été amenés à imaginer et développer une version ultra-rapide de Art, que nous avons baptisé Quick-Art. Quick-Art permet de réaliser un apprentissage similaire à Art1 ou Art2 en quelques secondes. Quick-Art implante un raccourci mathématique de l'algorithme d'apprentissage et fourni en 6

une seule passe une configuration des poids identique à celle de Art1 après quelques centaines ou milliers d'itérations d'apprentissage. Il s'agit donc d'une accélération drastique de la convergence, qui cependant a un prix. En effet, la configuration trouvée par Quick-Art est équivalente à celle de Art1 ou Art2 si et seulement si l'on ne tient pas compte de l'ordre d'apparition des exemples dans la base d'apprentissage. Cette condition peut sembler peu contraignante pour la majorité des applications actuelles du modèle Art, cependant dans notre cas précis, elle nous empêche de pouvoir étudier très précisément l'effet de l'âge d'acquisition. Nous avons contourné le problème en réalisant des apprentissages successifs sur les différents manuels (cf. résultats), mais de fait les résultats obtenus avec Quick-Art ne peuvent pas être utilisés en lieu et place de ceux obtenus avec Art1 ou Art2. Durant nos expérimentations avec le modèle Art (Art1, Art2, Quick-Art et), nous avons pu nous rendre compte de la difficulté qu'ont ces modèles à représenter facilement les notions de compétition locale entre mots voisins orthographiquement. A chaque fois, nous avons dû considérer une valeur telle que le rang (nombre de neurones de sortie présentant une activité supérieure au neurone correspondant effectivement au mot présenté) comme représentative d'un délai d'identification. Il s'agit donc de donner à une valeur issue de la combinatoire une signification temporelle. Cette transformation "spatio-temporelle" est totalement arbitraire, et soulève nombre d'interrogations. En particulier, nous avons dû limiter artificiellement le périmètre dans lequel s'exerce la notion de rang aux seuls neurones effectivement voisins orthographiquement. C'est avec l'objectif de nous soustraire à cette contrainte de "rang" que nous avons choisi d'évaluer le modèle de la carte auto-organisatrice (Kohonen, 1982). Ce modèle, inspiré de l'organisation des cartes corticales, met en place un voisinage local. Chaque neurone n'est connecté qu'à quelques-uns de ses plus proches voisins (4 voisins par neurone seulement dans le cas d'une carte auto-organisatrice à 2 dimensions). Les problèmes liés aux temps de calculs considérables demeurent. La carte auto-organisatrice permet d'obtenir des résultats de même nature que nos précédents modèles, en utilisant pour représenter le délai d'identification la différence des valeurs d'activation des neurones de la couche de sortie. L'analogie entre valeurs d'activation des neurones et délai d'identification nous semble beaucoup moins sujette à caution, et le modèle de carte auto-organisatrice apparaît de fait aujourd'hui comme le plus plausible (biologiquement) pour implanter l'apprentissage de la reconnaissance orthographique des mots écrits. Le régime d'apprentissage Voir fichier annexe "RapportFinal_GRAINGER_annexe1.pdf" Evaluation des modèles ART Voir fichier annexe " RapportFinal_GRAINGER_annexe2.pdf " Evolution des modèles et comparaison inter-modèles Voir fichier annexe " RapportFinal_GRAINGER_annexe3.pdf " 7

3.3. Publications et logiciels dus au projet Article Deux articles sont en préparation. L'étude des algorithmes de ART sera soumise à Neural Networks. L'extension de ART, avec comparaison inter-modèles, sera soumise à Computational Biology. Communication écrite - Dufau S., Touzet C., Grainger J. Self-organizing map supports open bigram coding of words. XIII colloque EDSVS. Marseille juin 2005. Communication orale - Dufau S., Touzet C., Grainger J. Ecrire pour le Web: ce que nous apprend la modélisation de la reconnaissance orthographique des mots. Colloque lire, écrire, comprendre et apprendre sur Internet. Aix-en-provence Mai 2005. Les actes du colloque font l'objet d'un publication sous forme de chapitres d'un livre à paraître début 2006. Notre chapitre est en cours de révision. Le code informatique écrit lors de ce projet n'a pas vocation à intégrer un éventuel logiciel à venir. 8

3.4. Suites envisagées pour le projets (projets nationaux, européens ou autres ) Des demandes de financement ont été formulées auprès de l'anr. Le groupe constitué à l'occasion du projet TCAN continue de travailler à raison d'une réunion tous les mois environ. 9