Architecture d un système de recherche d informations pertinentes et personnalisées dans un système éducatif.

Transcription

1 Architecture d un système de recherche d informations pertinentes et personnalisées dans un système éducatif. Dridi Ouarda Département des Mathématiques et Informatique, Université Mohamed-Cherif Messaadia - Algérie dridi.ouarda@gmail.com Résumé : Actuellement, On assiste à la prolifération de campus numériques et de systèmes d information web universitaires ou de systèmes éducatifs basés sur le Web et qui peuvent être considérés comme des bases importantes d informations intégrant plusieurs sources de données hétérogènes accessibles par les étudiants à travers le Web. L'enjeu est d'assurer l'accès à l'ensemble des données, en préservant la transparence et la cohérence de l'ensemble des informations surtout pour des étudiants non expérimentés qui se trouvent confrontés d'une part aux problèmes structurels et sémantiques de chaque site et d'autre part aux contraintes de distribution. Dans cet article, nous proposons une architecture générique basée agents pour la recherche et l extraction d informations pertinentes et personnalisées dans un SIW comportant des concepts nécessaires pour la recherche et l extraction d informations pertinentes dans un environnement ouvert tel que le web. Mots Clés : Personnalisation, Recherche d'information, Systèmes éducatifs, Systèmes multi agents, Système d'information basé Web. 1 Introduction Afin de faciliter aux utilisateurs des environnements d enseignement basés Web, la recherche d informations pertinentes, plusieurs techniques sont mises en œuvre dans un système qui se base sur une approche agent. Une architecture générique comportant tous les aspects nécessaires pour la recherche d informations pertinentes dans un système d informations basé Web pourrait être un noyau pour une diversité de systèmes éducatifs, c'est-à-dire qu un développeur de didacticiels peut utiliser cette architecture comme référence pour développer un logiciel éducatif basé Web. Il est clair que quel que soit le domaine d activité, la recherche d informations pertinentes et personnalisées reste une fonction constante et indispensable pour un utilisateur. Par ailleurs, les systèmes multiagents, sont devenus un paradigme dominant dans le domaine du développement des systèmes distribués, complexes, coopératifs et intelligents. Dans cet article, nous proposons une architecture basée agents, comportant des concepts nécessaires pour la recherche et l extraction d informations pertinentes et personnalisées dans un système éducatif basé Web. Parmi les problèmes principaux dans le domaine des systèmes éducatifs basés Web, on peut citer le problème d accès à des sources d'informations distribuées et hétérogènes, ce qui rend difficile et fastidieuse l obtention de ressources pédagogiques, parfois nécessaires pour la compréhension des concepts. Néanmoins, cet accès permet aux étudiants d obtenir des informations et des ressources nécessaires à partir de leurs postes de travail, d'une façon simple et transparente. Ainsi l'intégration des données et la recherche d'informations pertinentes sont devenues des plus importants axes de recherche dans le domaine des systèmes d'informations dédiés à l enseignement. L'enjeu est d'assurer l'accès à l'ensemble des données, en préservant la transparence et la cohérence de l'ensemble des informations surtout pour des apprenants non expérimentés. Mais cette volonté est confrontée à plusieurs

2 problèmes et obstacles. Ces derniers sont dus principalement aux contraintes de distribution d'une part, et aux problèmes structurels et sémantiques de chaque site, d'autre part. Notre objectif est donc de proposer une architecture basée agent pour la recherche et l extraction d informations pertinentes et personnalisées dans le domaine éducatif. Cette architecture est basée sur des agents fixes et mobiles capables d apporter des solutions adaptées à cette catégorie de problèmes. 2 Etat de l art Avec l expansion du Web et la place qu elle a pris au sein des systèmes éducatifs, l utilisation des logiciels capables d opérer sur des sources d informations hétérogènes placées dans un environnement ouvert et dynamiques devient plus que nécessaire. L accès aux sources d information distribuées et hétérogènes aux apprenants nécessite des mécanismes d intégration de données et des processus de recherche d informations pertinentes dans le Web. L obtention des ressources doit préserver la transparence et la cohérence de l'ensemble des informations surtout que les apprenants se trouvent confrontés d'une part aux problèmes structurels et sémantiques de chaque site et d'autre part aux contraintes de distribution. Seule une approche globale et cohérente, peut permettre la mise en place d un plan de recherche et d extraction efficace et qui assure des résultats pertinents et personnalisés. 2.1 Recherche d informations personnalisées dans les environnements éducatifs L évolution permanente des besoins de formations, vers plus de flexibilité a favorisé l émergence de nouveaux outils pédagogiques et informatiques. Le domaine éducatif a très fortement évolué ces dernières années, sous l impulsion de la révolution Internet et de l évolution des technologies associées [Julija, 2010]. Cependant, le problème réside dans la diversité des informations auxquelles est exposé l apprenant et la diversité des apprenants eux même, par exemple, réaliser une telle équation se trouve être une tache excessivement difficile à accomplir [Yanwen, 2004]. D où le besoin de d orienté la recherche de information afin de la rendre plus pertinente et personnalisée dans les environnements éducatifs. Plusieurs travaux ont été menés dans ce sens tel que le modèle de recommandation basé sur un algorithme adaptatif de filtrage [Li, 2008]. Ainsi, un étude proposant un service personnalisé pour les systèmes éducatifs basé sur la théorie de réponse à l'item (PEL-IRT) considère à la fois la difficulté du support de cours et la capacité à fournir des chemins d'apprentissage individuels pour les apprenants [Chen, 2004]. Cette étude propose également une approche collaborative de vote pour le réglage de la difficulté du support de cours. Nous citons également WebDL, un système multi-agents au sein d un site web, visant à répondre à la personnalisation des informations pour l'utilisateur grâce à des techniques d'apprentissage [Jesus, 2001]. 2.2 Intégration de données hétérogènes et distribuées D un point de vue «bases de données», le Web a entraîné une énorme demande en nouvelles architectures pour l intégration de données [Abiteboul, 2000]. L'intégration est l'ensemble des techniques et méthodes qui permettent de proposer une vue unifiée sur l'ensemble des ressources hétérogènes et distribuées. Dans un système d intégration, l hétérogénéité des données se situe à deux niveaux : Au niveau de la structure : un même document peut exister sous plusieurs formats (par exemple, un rapport peut exister sous formats HTML dans une source et RTF dans une autre) ; un même attribut peut avoir deux types différents selon la source (l adresse d une personne peut être de type chaîne de caractères ou de type enregistrement)

3 Au niveau de la sémantique : la même information peut être représentée par des identificateurs différents ; Le problème d intégration de données de sources hétérogènes a été abordé dans plusieurs domaines tels que les entrepôts de données ou les systèmes de médiation. Un entrepôt de données est une «collection de données intégrées, orientées sujet, historisées, résumées et disponibles pour l interrogation et l analyse. Des modèles d entrepôts qui appliquent le principe des vues matérialisées et intègre les données en accord avec les schémas globaux. Le résultat est un entrepôt de données qui peut directement être interrogé à travers un langage adapté exemple l architecture d entrepôt WIND [Faulstich, 1997]. Le principe des systèmes de médiation est d offrir une couche intermédiaire appelée médiateur entre les sources de données (niveau source) et les programmes d applications (niveau client). Les systèmes de médiation reposent sur l architecture baptisée I3 [Widerhold, 1992]. 2.3 Informations pertinentes et personnalisées La qualité d'une information est généralement liée à son contenu même et répond à différents critères précis; elle est indépendante du contexte de réception de l'information (autrement dit, une information est de bonne ou de mauvaise qualité en elle-même). La pertinence d'une information est toujours relative, contextualisée et dépendante de plusieurs critères. On distingue plusieurs catégories différentes de pertinences: - La pertinence de la requête : est-ce que l apprenant utilise les bons mots-clés? - La pertinence de l'outil : est-ce qu'il indexe efficacement les documents? est-ce qu'il est adapté à la requête de l apprenant? - La pertinence de l'information par rapport au thème : est-ce que le document traite correctement le thème? On peut considérer ce type de pertinence comme un élément de la qualité de l'information. - La pertinence de l'information par rapport au besoin d'information : est-ce que l'information trouvée répond, en partie ou non, à mon besoin initial? Ici, ce type de pertinence peut être totalement différent de la qualité de l'information. Dans ce cadre, plusieurs travaux ont été abordés tels que Warren [Zeng, 1996] qui est un système combinant les données du marché financier, les rapports financiers, les modèles techniques et les rapports analytiques avec les prix courants des actions des compagnies via des agents spécialisés qui sont les agents d informations pour ensuite les présenter aux utilisateurs. L architecture du système NetSA [Cote, 1999] repose sur le paradigme agent pour la recherche d'informations dans des sources hétérogènes et réparties. 2.4 Quelques modèles de recherche d informations Différents modèles de recherche d informations dans les systèmes de recherche d informations ont été proposés. Parmi les plus utilisés, on retrouve le modèle booléen, le modèle vectoriel et le modèle probabilistique. Le modèle booléen [Picarougne, 2004] utilise un calcul d appariement exact et permet de retrouver les documents qui répondent exactement à la requête. Les requêtes sont exprimées sous la forme d expressions booléennes. Le modèle probabiliste considère que la pertinence d un document par rapport à une requête correspond à un degré, c est-à-dire à une valeur non booléenne (un document n est pas «pertinent» ou «non pertinent» mais peut être «plus ou moins pertinent»). On suppose alors que lorsque les représentations de la requête et d un document sont suffisamment similaires, la probabilité correspondante de pertinence est suffisante pour restituer le document en réponse à la requête. Le modèle vectoriel [Jean, 2004] est basé sur la représentation des documents et des requêtes sous forme de vecteurs dont les composantes sont les termes d indexation. A chaque terme

4 est associé un poids qui mesure son importance dans la représentation du contenu d un document. Le mécanisme de recherche consiste à retrouver les vecteurs documents qui s approchent le plus du vecteur requête. Cela implique des mesures de similarité entre vecteurs telles que la mesure d appariement simple, la mesure de Jaccard et la méthode du cosinus mesurant l angle entre les vecteurs, ou la mesure d appariement simple utilisant le produit scalaire. De par simplicité, nous avons choisi ce modèle dans notre approche. 3 Présentation générale du système Nous avons développé un système à base d agents qui s articule autour d un schéma global développé en XML intégrant les sources de données du SIW. C est une architecture générique et donc adaptable à tout type de système éducatif. Les différentes couches de notre système sont illustrées dans la figure1. La Couche de communication avec l utilisateur Apprenant La Couche de traitement La Couche d interrogation et D extraction des données Données Source 1 Relationnelle Source 2 Objet Source N XML Fig. 1. Structure organisationnelle du système Couche de communication avec l apprenant : Cette couche est chargée de gérer les communications entre le système et l apprenant. Elle comprend des agents interagissant avec les apprenants pour les aider à réaliser une tâche bien précise. L interaction se traduit par une transformation des requêtes de l usager en des actes d un langage de communication interagent. Couche de traitement : Elle reçoit de la couche de dessus les requêtes à satisfaire ainsi que les informations fournies par l apprenant. Elle effectue principalement les tâches suivantes: intégration des schémas locaux, localisation de l information pertinente dans le Web, décomposition de la requête initiale et interrogation des sources de données pertinentes concernée, collecte et recomposition de la réponse globale de la requête initiale en utilisant des agents mobiles, et enfin routage du résultat final vers l agent interface utilisateur qui est à l origine de la requête globale. Couche d interrogation et d extraction : Cette couche est chargée de l interrogation et d extraction d informations, composée d agents appelés «s wrappers» formant une interface entre les bases de données et la couche de traitement. Ces agents : Transforment les requêtes reçues et les traduisent en requêtes adaptées au base de donnée respectives (par exemple SQL ou Xquery) pour interroger ces dernières. Extraient l information pertinente Traduisent les résultats en XML et les communiquent à des agents mobiles spécialisés, appelés «s Collecteurs». Les agents wrapper peuvent retirer l information contenue dans une base de données Objet, Relationnelle ou bien XML.

5 L architecture du système proposé est basée sur deux types d agents : des agents d information et des agents mobiles, s articulant autour d une base de documents XML qui constitue le schéma global des sources de données locales participant à notre SIW. Ce système permet : L interaction à un apprenant potentiel donc la transparence totale vis a vis de l utilisateur, La recherche d informations pertinentes dans un schéma global (afin de localiser les sources contenant les informations pertinentes), L extraction de l information, La collecte et la recomposition de la réponse globale de la requête initiale en utilisant des agents mobiles ; La diffusion de la réponse finale à l utilisateur du système. 4 Description des différents agents pour la recherche L architecture proposée est basée sur une approche multi agent. Elle est illustrée dans la figure 2. Ainsi le système de recherche d informations pertinentes et personnalisées est composé de deux groupes. Le premier groupe d agents G1, composé d un agent Intégrateur et de plusieurs agents Wrappers, est chargé de l intégration des sources de données hétérogènes et de la conversion des sources locales vers un modèle de données commun. Schéma global Source 1 XML Wrapper (XML) Intégrateur G1 Source 2 Relationnelle... Source N Objet Wrapper (Relationnel le)... Wrapper (Objet) s collecteurs Vérificate ur Médiateur Intérrogateu r interface Apprenant interface Apprenant Apprenant 1 Apprenant 2 G2 Mappeur Communication Inter s Communication Utilisateur /Final SMA Interrogation Base de donnée/extraction de données Fig. 2. Architecture Globale du système Le deuxième groupe G2 est chargé de la recherche et l extraction de l information propre à un apprenant. Il comprend : Des s Interface Apprenants qui fournissent une interface aux utilisateurs potentiels du système,

6 Un médiateur qui traite la requête en la décomposant et l envoyant aux différentes sources, Un Interrogateur, permettant d interroger le schéma global, Un Mappeur qui se charge du remplacement des termes de la requête globale en termes locaux, Un Vérificateur qui se charge de vérifier les disponibilités des sources de données et la mise à jour de l annuaire des sources de données, Des s Wrapper qui se chargent de la traduction des requêtes globales en des requête locales et de l extraction des données qui constituent des parties de la réponse globale, Des s mobiles appelés s collecteurs qui se chargent de migrer de site en site pour récupérer les parties du résultat global puis les traitent pour l obtention d un résultat cohérent. 5 Mécanisme d interaction entre les agents Nous illustrons à l aide d un exemple les interactions entre les différents agents, l apprenant envoie une requête ordinaire et il reçoit les données (la page Web) en retour. Dans cette partie, nous analyserons les différentes étapes permettant d obtenir des informations pertinentes et personnalisées à partir d une requête émise de l apprenant. Elles se résument comme suit : Etape 1 : Interaction entre l apprenant et le système : L apprenant choisit le contexte dans lequel il veut travailler. L agent lui donne la première page de recueil d informations à enregistrer dans le profil de l apprenant. Si la réponse du traitement de la requête est favorable, elle transmise à l agent Médiateur. En cas de refus, une notification est traduite à l utilisateur par une page HTML. Lors de la provenance du résultat final de la requête en XML un processeur XSL le formate en un document HTML. Etape 2 : Formulation de la requête globale : Durant cette phase, l apprenant effectue sa recherche dans une transparence totale vis-à-vis du système et cela grâce à l agent Interface Apprenant. L apprenant est assisté par ce type d agent pour la bonne formulation de la requête, l agent récupère cette dernière afin de lui formuler une description au sein du système comme étant le but global à atteindre Etape 3 : Localisation de la source contenant l information pertinente : Cette phase assure la fonction de la recherche du (des) site(s) de résidence de l information pertinente ou de ces parties. Cette étape est assurée par les différents agents : Médiateur ; Interrogateur ; Mappeur et Vérificateur. Ces quatre agents coordonnent leurs actions afin de trouver le (les) site(s) où résident les éléments pertinents. L Interrogateur permet d interroger le schéma global pour définir les sources contenant les informations recherchées, L Médiateur traite la requête en la décomposant et l envoyant aux différentes sources, L Mappeur se charge du remplacement des termes globaux de la requête globale en termes locaux, L Vérificateur se charge de vérifier la disponibilité des sources de données et la mise à jour de l annuaire des sources de données. Etape 4 : Extraction de l information pertinente : Cette phase est assurée par un agent appelé Wrapper. Cet agent se charge de la traduction des requêtes globales en requêtes locales dans des langages d interrogation adaptés aux sources de données respectives et de l extraction des données qui constituent des parties de la réponse globale. Etape 5 : Collecte et ajustement des résultats : Les agents mobiles sont exploités et rendent les recherches de notre système plus appropriées à l'environnement Web. Ces agents sont appelés collecteurs. Le système propose un ensemble d agents mobiles qui se chargent de

7 migrer de site en site [Philip,2003] (voir figure 3), afin de récupérer les parties du résultat global puis les traite pour l obtention d un résultat global cohérent. Etape 6 : Obtention du résultat de la requête globale : Cette phase implique les agents Médiateur et Interface Apprenants. Une fois le résultat global est transmis à l Médiateur, ce dernier se charge de son routage vers l agent Interface Apprenant à l origine de la requête globale, et par ce fait le but du système est atteint. Serveur médiateur Collecte WEB Collecte Migration Migratio n Wrapper N (Objet) Source N (Objet) Site N Wrapper 2 (Relationnell e) Source 2 (Relationnelle) Site 2 Wrapper 1 (XML) Source 1 (XML ) Site 1 Fig. 3. s impliqués dans la phase Collecte et ajustement des résultats Après l extraction de la donnée l agent wrapper traduit le résultat de la requête locale et le transmet à l agent collecteur qui est un agent mobile qui va migrer de site en site pour récolter les résultats des différentes source distribuées et les ajuster pour l obtention d un résultat global et cohérent, l agent wrapper envoi donc un message FIPA-ACL. Le message FIPA-ACL suivant est un exemple de résultat envoyé par un agent wrapper : ( resultat : sender agent wrapper : receiver agent collecteur : language XML : protocole FIPA-Request : content (<Ensemble Résultat> <Ligne> <nom colonne = Titre opération = Indéfinie > Système Multi dédié à la recherche D informations </colonne> <résumé> utiliser divers outils de développement disponibles (produits recherche gratuits... L utilisation raisonnée de Systèmes Multi- s requière une interface... </résumé> <Adresse_téléchargement> wwwlisc.clermont.cemagref.fr/labo/activite_recherche/ projets/projets_en_cours/multis/pressma. Pdf </ Adresse_téléchargement > </Ligne> </Ensemble Résultat>

8 ) : in-replay-with inform ) 6 Conclusion Dans cet article, nous avons présenté un système permettant d effectuer la recherche et l extraction des informations pertinentes et personnalisées dans un environnement éducatif basé Web. L utilisation des agents d information et mobiles constitue la particularité de cette approche, vu les avantages que représentent ces deux types d agents à savoir l autonomie, la mobilité la coopération, la coordination, et l interactivité pour rechercher les informations précises et les ressources nécessaires demandées par l apprenant. Aussi, elle permet une grande résistance à l instabilité de l environnement ouvert grâce à l attribution dynamique des tâches. Nous envisageons de valider l approche proposée à l aide la plateforme JADE en utilisant le langage FIPA ACL. 7 Références bibliographiques [Abiteboul, 2000] Abiteboul.S, P. Buneman, D. Suciu «Data on the Web: From Relations to Semi structured Data and XML.», Morgan Kaufmann, [Cote, 1999] Cote Marc, Brahim Chaib_Draa et Nader Troudi : «NetSA: une architecture multiagent réutilisable pour les environnements riches en information.» Master's thesis, Département d'informatique, Université Laval, Avril [Chen, 2004]Chih-Ming Chen, Hahn-Ming Lee, Ya-Hui Chen " Personalized e-learning system using Item Response Theory" Computers & Education 44 (2005) , January 2004 [Jesus, 2001]Jesus G. Boticario*, Elena Gaudioso*, Carlos Catalina**; " Towards personalised learning communities on the Web" Proceedings of the First European Conference on ComputerSupported Collaborative Learning (2001)] [Faulstich, 1997] Faulstich M. Spiliopoulo, V. Linnemann: «WIND : A Warehouse for Internet Data», Proceedings of 15th British National Conference on Databases, pp , [Julija, 2010] Julija Laphun Bele and Joze Rgelj «Comparing Learning Results of Web Based ans traditional Learning Students Advances in Web-Based Learning», ICWL 2010, 9th International Conference, Shanghai, China, December 8-10, Proceedings [Yanwen, 2004]Yanwen W. and Zhonghong W «Knowledge Adaptive Presentation Strategy in E-Learning.», Proceedings of Second International Conference on Knowledge Economy and Development of Science and Technology, Beijing, 2004, pp.6-9 [Li, 2008]Xinye Li, Qi Luo, and Jinsha Yuan «Personalized Recommendation Service System in E-Learning Using Web Intelligence», LNCS Vol. 4489, p. 531, [Jean, 2004]Jean Martinet : «Un modèle vectoriel relationnel de recherche d information adapté aux mages.», [Philip,2003] Philip S. Medcraft, Ulrich Schiel, Cláudio S. Baptista: Data integration using agents, [Picarougne, 2004] Picarougne Fabien: «Recherche d information sur Internet par algorithmes évolutionnaires.», [Widerhold, 1992] Widerhold.G: «Mediators in the Architecture of Future Information Systems.», IEEE Computer, pp , March [Zeng, 1996] Zeng, D., K. Sycara: «Coordination of multiple intelligent software agents». International Journal of Cooperative Information Systems- 5, p , 1996.