Exemple de mise en œuvre modulaire d un processus de veille Séverine Perbal, Cyrille Dubois, Paul Schosseler (Centre de Recherche Public Henri Tudor, Technoport Schlassgoart, B.P. 144, 66 rue de Luxembourg, L-4002 Esch-sur-Alzette) severine.perbal@tudor.lu, cyrille.dubois@tudor.lu, paul.schosseler@tudor.lu Mots clés : Veille scientifique et technologique, outil logiciel, fouille de données textuelles, analyse bibliométrique Keywords : Scientific and technical awareness, software tool, textmining, bibliometric analysis Palabras clave : Escudriñar científico y technológico, herramienta logicial, explotación del texto, anélisis bibliométrico Résumé : Cet article présente la mise en œuvre d un processus de veille dans le cadre d un projet de recherche. Le système proposé est modulable, adapté aux besoins spécifiques du chercheur et non contraignant pour le veilleur qui doit s assurer de la faisabilité technique du dispositif. Les différents modules du système de veille sont : un module «État de l art», trois modules de veille («Veille Internet», «Veille Revues» et «Veille Bases de Données») et deux modules d analyse («Textmining» et «Bibliométrie»). Cette approche modulaire permet de répondre rapidement aux questions de l expert, utilise la complémentarité de différents types d analyse, et apporte des résultats en adéquation avec les besoins informationnels des chercheurs. L accent est mis sur le rôle particulier de l expert dans chaque module.
1 Introduction Dans un contexte de veille scientifique, il est nécessaire de rechercher l information dans des sources hétérogènes et éparses, d analyser l information présente sous ses différentes formes et de proposer des indicateurs pertinents permettant une aide à la décision efficace. De nombreux systèmes visant à assister un processus de veille scientifique et technique ont été développés. Il existe des systèmes très complets proposant la recherche, la navigation et la consultation d indicateurs synthétiques sur un corpus contenant des informations d origine et de formats très divers, structurés ou non [1]. On note aussi dans la littérature des systèmes plus spécifiques (comme par exemple le système TermWatch) permettant l analyse de corpus afin d obtenir une cartographie des termes extraits [2], ou des systèmes permettant de classer et représenter l information bibliographique [3] [4] [5]. La plupart des systèmes proposés permettent d analyser un type d information (références bibliographiques ou texte intégral). Ils ne prennent pas en compte tous les types d informations disponibles et leurs analyses. Pour parvenir à analyser des informations hétérogènes (sous forme de références bibliographiques ou texte intégral), il est nécessaire de coupler différentes approches. La présente communication propose un exemple de dispositif qui permet de combiner les différents types d information et d analyse existants, pour proposer un système global de veille scientifique et technique au profit de chercheurs. L élément essentiel de ce dispositif est la modularité. L idée de proposer un processus souple et modulable, adapté à notre contexte, s est avérée une priorité car : les sources sont hétérogènes ; les besoins informationnels de chercheurs sont tous différents ; les compétences des chercheurs en matière informationnelle sont différentes. Le processus développé comprend tout d abord une phase de recherche et de collecte de l information, intégrée dans un module «État de l Art». Cette première phase permet de constituer des corpus bibliographiques et en texte intégral. Afin de mettre à jour l ensemble de la documentation et de prendre en compte les dernières nouveautés dans le domaine étudié, une veille permanente a été mise en place. L analyse de l information issue de ces différentes recherche et veilles utilise deux modules complémentaires : un module «Bibliométrie» et un module «Textmining». Ainsi, ce dispositif permet d élaborer des indicateurs et des cartes du domaine qui sont ensuite diffusés sous forme de bulletins de veille et de newsletter aux experts. Ce système prend en compte l avis de l expert tout au long du processus. Après une brève description de l ensemble du dispositif, chaque module sera décrit en détail. Les outils utilisés ainsi que les résultats obtenus seront présentés et explicités. Enfin, l intérêt et l apport d une telle approche seront discutés. 2 Contexte Le déploiement du dispositif de veille modulaire s est effectué dans le cadre d un projet pilote, financé par le Fonds national de la recherche luxembourgeois, sur l implantation de nouvelles technologies environnementales. Le sujet de recherche porte plus précisément sur les «Nouveaux concepts et technologies pour une gestion durable du cycle de l eau urbain». Les objectifs du projet sont de sensibiliser différents acteurs dans le domaine de l eau, administrations, bureaux d architectes, bureaux d ingénieurs et grand public, sur la nécessité de mettre en œuvre de nouvelles technologies pour la gestion de l eau, mais également de trouver des technologies et exemples de mise en œuvre dans les pays industrialisés. Il était donc impératif de connaître les dernières avancées scientifiques et technologiques dans le domaine. Un autre objectif était de trouver un système adaptable à d autres structures du Centre de Recherche Public Henri Tudor. Les autres équipes n ayant pas les mêmes thématiques, les mêmes besoins et les mêmes compétences, il fallait s assurer dés le départ de la souplesse du système et de son adaptabilité.
3 Le dispositif de veille scientifique et technologique Le dispositif de veille comprend à l heure actuelle quatre modules autonomes pouvant être complémentaires : un module «État de l Art», qui permet de constituer les premières bases documentaires ; les modules «Veille Internet», «Veille Revues» et «Veille Bases de Données» qui peuvent compléter le premier module ; deux modules d analyse automatique de l information, «Textmining» et «Bibliometrie». 3.1 Etat de l art ou constitution de bases documentaires 3.1.1 Approche générale Tout chercheur a besoin de documents couvrant son domaine de recherche afin de réaliser un état de l art, de connaître l évolution des recherches, d identifier les laboratoires experts, etc. et ainsi d orienter ses travaux. Pour cela, il doit se constituer une documentation aussi complète que possible. Afin de recueillir l information utile, notre approche a tout d abord été de consulter des bases de données commerciales (spécialisées et généralistes), voir figure 1. Figure 1 : Schéma global de la recherche d information. Ceci a permis d obtenir un premier ensemble de références bibliographiques qui ont été analysées par l expert. Or, la quantité de références bibliographiques trouvées s est avérée faible et surtout ne couvrait pas tous les points à aborder dans le projet. La thématique de recherche étant assez nouvelle, peu d informations étaient reprises dans les bases de données commerciales.
Une seconde stratégie de recherche a alors été mise en œuvre : les noms des chercheurs et institutions issus des références bibliographiques pertinentes ont été extraits, et des recherches sur Internet réalisées à partir de ces noms. Ceci a permis d enrichir la base documentaire aussi bien en information bibliographique qu en articles en texte intégral. L ensemble des références a été soumis à l expert pour validation, un certain nombre d articles a pu être commandé et d autres téléchargés directement d Internet. D autre part, les recherches menées sur Internet ont permis de repérer un ensemble de sites pertinents pour notre domaine d étude. Des sites portails, institutionnels, d entreprises, etc. ont pu être répertoriés et ont permis de construire un fichier de favoris. 3.2 Les modules «veille» Le processus présenté ci-dessous permet d actualiser la base documentaire réalisée au préalable et de maintenir à jour l état de l art du domaine. Le processus de veille comprend des veilles : Internet ; revues ; bases de données. Ces différents modules sont présentés ci-dessous. 3.2.1 La veille Internet De nombreux sites ont été trouvés lors de la réalisation du module «Etat de l Art». Or les sites pertinents repérés ne peuvent être consultés ni manuellement ni quotidiennement. Un outil logiciel doit donc être utilisé pour les surveiller. S il est important de surveiller les pages statiques repérées, cette surveillance de pages Internet ne permet pas toujours de découvrir les sites nouvellement parus. D autre part, les informations contenues dans la partie invisible du Web, principalement dans les bases de données, forment un élément essentiel à prendre en considération dans tout processus de veille. Le logiciel KBCrawl qui permet aussi bien une surveillance du Web visible que du Web invisible a été retenu pour ce module [6]. Dans le cas où les besoins de surveillance s orienteraient uniquement sur des pages statiques, un outil tel que WebSiteWatcher pourrait être utilisé. Après enregistrement des pages Internet statiques ou des requêtes dans les différents moteurs et bases de données recensés, le logiciel effectue une sauvegarde des données récupérées en ligne (éléments textuels et liens) dans sa propre base de données. Il est alors possible de comparer les versions sauvegardées et les versions actualisées, à des périodes régulières. Tout changement est alors mis en évidence. Les modifications repérées sur un site permettent d alerter sur les nouvelles parutions du domaine (ouvrages spécialisés, rapports techniques), les dernières publications scientifiques, les futurs congrès et conférences, la publication d actes de congrès... Des nouveaux sites du domaine sont également recensés, ce qui permet de compléter la liste des liens (à mettre éventuellement sous surveillance selon l avis de l expert). Toutes ces informations sont reprises dans un bulletin de veille envoyé bi-mensuellement à l expert qui en vérifie la pertinence. Les informations validées donnent au veilleur la liste des documents à incorporer dans les bases de données bibliographique ou texte intégral, la liste des ouvrages ou des articles à commander. Les nouveaux liens validés sont rajoutés à la liste de liens à surveiller. La veille Internet a permis de constituer une base documentaire que l on peut analyser à tout moment pour cerner un point spécifique du domaine, pour aider à la rédaction d articles et rapports.
Indexation 3.2.2 La veille revues Un des problèmes mis à jour lors du projet, et qui s avère récurrent au sein de beaucoup d équipes de recherche, est la gestion des revues auxquelles ces équipes sont abonnées. En effet : les revues sont souvent stockées dans un bureau et ne circulent pas. Elles ne sont donc pas traitées et analysées au fur et à mesure de leur réception ; les membres des équipes ne lisent pas tous les articles par manque de temps ; les abonnements ne sont pas actualisés en fonction de l évolution des activités de l équipe. Afin de palier à ces inconvénients, un module de veille sur les revues reçues a été mis en place. La problématique de la «Veille Revue» est de repérer automatiquement la parution d articles pertinents, selon les centres d intérêt des chercheurs, et de les en alerter. Pour réaliser automatiquement une telle tâche, il faut analyser le contenu des articles. Or, ceux-ci sont majoritairement disponibles sous forme papier. Il faut donc tout d abord numériser le contenu pour être à même de lancer une analyse automatique. Une telle tâche demandant beaucoup de temps au vu du nombre de revues reçues dans un centre de recherche, elle a été abandonnée au profit d une analyse des sommaires des revues. Si ceux-ci ne sont pas disponibles sur Internet, il est procédé à un scanning de la version papier (voir figure 2) puis à une phase de reconnaissance optique de caractères. Le contenu des sommaires est ensuite comparé avec un ensemble de mots-clés prédéfinis, reflet des activités du chercheur. Prétraitement Création de scénarios Revues Sommaires des revues Tropes Zoom Articles pertinents Alerte e-mail Scanner Figure 2 : Schéma global de la veille revue Cette analyse ne peut se faire qu avec un outil logiciel permettant des analyses de textmining. Ces outils permettent de rechercher dans un corpus des formes définies ou non au préalable. Dans notre cas, la recherche de formes prédéfinies a fait porter notre choix sur le logiciel Tropes Zoom, qui réalise cette fonctionnalité grâce à la création de scénarii personnalisés.
Tropes est un logiciel d analyse sémantique de contenu [7] qui permet de réaliser des analyses complexes comme des analyses de discours ou des analyses documentaires. A partir du calcul de la fréquence d occurrence des formes, le logiciel analyse aussi bien : le style général du texte ; le contexte (il regroupe dans des catégories les principaux substantifs du texte) ; les éléments du scénario courant (outil qui permet de construire son propre dictionnaire ou un profil personnalisé). C est cette dernière fonctionnalité qui est utilisée dans le cadre de la «Veille Revues». Le scénario permet de définir un dictionnaire (ou profil) et de personnaliser ainsi la recherche d informations dans les textes. Il est constitué d un certain nombre de groupes sémantiques, c est à dire de regroupements de mots et/ou de classes d équivalents, qui peuvent être hiérarchisés sur neuf niveaux de profondeur. Un scénario est créé pour chaque profil. Un long travail de pré-traitement est nécessaire pour définir le profil des chercheurs, car il doit refléter au mieux leur activité. Celui-ci est remis à jour régulièrement pour prendre en compte les évolutions de leurs activités. Zoom est un moteur de recherche et d analyse sémantique qui permet de rechercher, de regrouper par thème et de gérer tous les textes du corpus. L association des deux logiciels permet d indexer le corpus en texte intégral (avec Zoom), et d analyser les documents et de visualiser les résultats du scénario personnalisé (avec Tropes). Les résultats du scénario sont diffusés hebdomadairement par courrier électronique sous forme de références d articles à consulter. 3.2.3 La veille bases de données Les bases de données accessibles sur les serveurs commerciaux doivent être surveillées régulièrement afin d alerter sur les nouvelles publications non détectées par ailleurs. Les équations de recherche utilisées pour effectuer l état de l art initial sont réutilisées régulièrement pour consulter les bases de données sélectionnées. Cette veille est effectuée annuellement. 3.3 Analyse des informations Si la quantité d informations recueillies lors des différentes «veilles» est conséquente, des outils d analyse automatique peuvent être utilisés. De tels outils permettront par exemple d analyser un point spécifique d un corpus en texte intégral ou d analyser des réseaux d experts pour un corpus bibliographique. Ces deux types d analyses, complémentaires, vont être présentés dans les deux paragraphes suivant. 3.3.1 Analyses bibliométriques Si le corpus bibliographique comprend un grand nombre de références, il est difficilement envisageable de l analyser par une lecture séquentielle. Une analyse de type bibliométrique pourra permettre par exemple de suivre l évolution d un thème de recherche au cours du temps, d identifier des experts ou des réseaux d expert. Deux approches distinctes sont possibles : d une part la construction d indicateurs qui permettent des comparaisons quantitatives entre des ensembles de formes bien définies (top 10 des laboratoires experts, des chercheurs); d autre part, la mise en évidence d ensembles relationnels destinés à cartographier les domaines couverts (réseaux de collaborations entre laboratoires, auteurs).
Number of publications Les chercheurs ont en effet besoin de connaître les laboratoires travaillant sur la même problématique, d identifier les experts du domaine ou les revues indispensables pour suivre l actualité du domaine. Le logiciel choisit pour les analyses bibliométriques devait combiner les deux approches mentionnées ci-dessus. Notre choix s est porté sur l outil MathéoAnalyser [8]. 400 350 300 250 200 150 Number of references Cumulative number of references 100 50 0 1976 1978 1980 1982 1984 1986 1988 1990 1992 1994 1996 1998 2000 2002 Years Corpus bibliographique Mathéo Analyzer Document types Study Thesis Others Report Book 2% 3% 1% 6% Article 50% Reformatages et analyses bibliométriques Conf. Article 38% Figure 3 : Schéma global des analyses bibliométriques Des indicateurs tels que le top 10 des experts, les universités les plus actives, les revues pertinentes pour le domaine d activité considéré peuvent être fournis au chercheur. Le tout complété par des réseaux de chercheurs (pour appréhender les collaborations entre les équipes de recherche) fournit des indications utiles quant à l environnement du domaine étudié. 3.3.2 Analyses de textmining Le corpus en texte intégral est constitué d un grand nombre de documents que les chercheurs n ont pas le temps d étudier. Or, pour la réalisation d un état de l art, par exemple, il est indispensable d avoir la meilleure vue possible du domaine. L utilisation d outils permettant une analyse automatique est ici d une grande utilité, que ce soit pour avoir une vue globale du corpus étudié, pour aborder un point spécifique ou pour tenter de repérer des thématiques émergentes (aspect indispensable dans tout dispositif de veille). C est pourquoi l étude de textmining proposée aux chercheurs comprend (voir figure 4) : une analyse globale, qui permet de mettre en évidence les points importants abordés dans l ensemble des documents (elle permet de cerner l essentiel du contenu des documents) ; une analyse spécifique, qui vise à analyser plus en détail un aspect du domaine (elle permet de voir comment est abordée une notion ou une thématique particulière dans le corpus) ; une analyse comparative, afin de comparer deux corpus (élaborés à des instants différents), dans l optique de détecter des signaux faibles.
Analyse spécifique Indexation Cartographie Analyse globale Prétraitement Création de dictionnaires - Mots vides - Mots composés - Synonymes - Mots obligatoires Carte des thèmes du corpus Corpus texte intégral Corpus bibliographiq ue Acquisition des termes des dictionnaires + Acquisition automatique Corpus indexé Corpus indexé Carte d un thème du corpus Carte des contextes d un thème Figure 4 : Schéma global des analyses de text-mining Dans les trois cas de figure exposés ci-dessus, une analyse de textmining est effectuée sur le corpus. Ces analyses sont effectuées avec le logiciel WordMapper. Celui-ci permet d analyser de l information structurée ou non, selon deux méthodes : une analyse linguistique et une analyse statistique [9]. Le logiciel effectue tout d abord une lemmatisation des termes contenus dans les documents, suivie d une analyse statistique (analyse multidimensionnelle de classification). Ceci permet de construire des groupements de classes d objet. Une métrique entre les termes, qui tient compte des cooccurrences des termes dans les documents du corpus, est ainsi définie. Les classes sont représentées sous forme de graphes permettant de visualiser l ensemble des thèmes du corpus, le détail d un thème ou encore les contextes d un terme donné. Exemple d analyse spécifique : L analyse spécifique tend à répondre à une demande particulière d un expert. L exemple présenté cidessous se rapporte à une étude sur le thème de l eau de pluie dans le cadre de l hygiène publique. Pour cela, nous avons analysé plus particulièrement la carte se rapportant au thème de l eau de pluie. La carte représentant l ensemble des contextes du mot «rainwater» est la suivante :
Figure 5 : Carte des contextes du mot «rainwater». L analyse de la carte a permis de trouver les mots signifiants les plus pertinents, mais aussi d éliminer les termes non signifiants dans le cadre de cette étude. Les mots-clés signifiants ont été regroupés dans des classes comme présentées sur la carte analysée ci-dessous. Figure 6 : Carte analysée. Avec une telle carte, l expert dispose d une vue rapide des éléments clés liés à sa problématique. Il a une vision globale de la thématique étudiée mais peut également analyser plus en détail un point particulier (la carte présente une structure avec des liens hypertextes vers le contenu de chaque contexte pour une étude plus fine). Ce type de carte apporte un regard nouveau sur le corpus, recense tous les points essentiels à prendre en considération lors de l étude et améliore la vitesse de traitement des documents (par rapport à une lecture séquentielle).
4 Discussion Le dispositif de veille scientifique et technique proposé offre une stratégie globale de recherche et collecte d information auprès de sources variées (Internet, bases de données, revues), suivie par une veille active de ces sources, et complétée par des analyses bibliométriques et de textmining. Le processus mis en œuvre est un processus très souple aussi bien pour l utilisateur (expert, chercheur) que le veilleur. 4.1 Bénéfices pour l utilisateur Le dispositif modulaire s adapte tout particulièrement aux différents besoins et aux niveaux de pratique de veille de l utilisateur. En effet, les chercheurs n ont pas tous les mêmes besoins informationnels suivant le type de projet qu ils mènent et son état d avancement. Le processus de veille modulaire proposé permet aux chercheurs de choisir les modules qu ils jugent nécessaires pour les aider dans leurs recherches, et ce à tout moment jugé opportun. Par ailleurs, les chercheurs ont souvent des habitudes informationnelles propres, que ce soit pour la recherche, l analyse ou la diffusion de l information. Ils sont d ailleurs très souvent persuadés de pouvoir réaliser leurs recherches informationnelles seuls et d accomplir un travail de veille efficace. Imposer une méthodologie de veille longue et trop complexe, dans laquelle ils n auraient quasiment aucun rôle à jouer ne leur rendrait pas service, car ils s en désintéresseraient immédiatement. Les chercheurs ont leur propre vision de la veille et ils appréhendent souvent un système compliqué qui risque de les gêner de part le temps nécessaire au développement du processus et bien sûr en raison du coût du système. Le système modulaire permet une pratique progressive de veille avancée et une mise en place répartie dans le temps. Il se veut formatif, il convainc par étape de la nécessité d organiser la gestion de l information et fait prendre conscience, par une méthodologie de veille simple, de la facilité de mettre en place le système et de l utiliser. La prise de conscience s effectue pas à pas en même temps que la construction du dispositif. De plus, un facteur incitant est le coût du dispositif à mettre en œuvre. Il n est ici nul besoin de mettre en place l ensemble du dispositif (ou une suite logicielle très onéreuse). Tout besoin exprimé peut donner lieu à la mise en place d un seul module à un coût très raisonnable. Les chercheurs se sentent souvent exclus du processus de veille. Ils reçoivent alors l information en push, sans être convaincu de l importance de cette information et au final ne l exploitent pas. Dans le cadre du processus modulaire, le rôle central de l expert dans chaque module valorise son travail, renforce sa participation dans le processus, il se sent alors vraiment impliqué dans le processus de veille. En d autres termes, l acceptabilité du processus de veille repose sur la participation active du chercheur dans chaque module. L autre avantage de la contribution du chercheur est la possibilité de créer des produits informationnels toujours plus proche de ses aspirations et de ses attentes. Souvent les chercheurs veulent réaliser eux-mêmes leur propre veille car ils estiment que des personnes non-spécialistes de leur domaine ne peuvent pas leur fournir une information ciblée. C est pourquoi l approche modulaire a été développée avec l idée de permettre un transfert de compétences pour certains modules (ce qui est notamment le cas pour le module «Veille Internet»). 4.2 Bénéfices pour le veilleur Pour le veilleur, les avantages du dispositif sont certains aussi bien au niveau des outils utilisés (choix des outils), que de l adaptabilité du dispositif et du développement possible de nouveaux modules.
L achat de certaines plate-formes ou solutions intégrales peut être très coûteux surtout pour des petites structures. Par ailleurs les paramétrages initiaux demandent généralement énormément de temps. Avec la configuration présentée, on utilise généralement un outil par module (solutions à faible coût), que l on peut changer suivant l évolution des différents produits et technologies. Par ailleurs, si un produit disparaît, on peut toujours tenter de trouver sur le marché un produit équivalent ayant des fonctionnalités proches ou similaires. Dans un centre de recherche où chaque équipe a une thématique propre et chaque chercheur un projet différent, il est fondamental de s adapter rapidement. La configuration même du système proposé permet de paramétrer et d intégrer rapidement les nouvelles données et donc de s adapter rapidement à différentes problématiques de recherche. Par ailleurs, le système n est pas figé, il autorise une intégration rapide de tout nouveau module dans le processus. Nous envisageons entre autre d améliorer ou d ajouter des modules d analyse, ce qui permettrait de diversifier les analyses et d intégrer de nouveaux indicateurs. 5 Conclusion Le système de veille présenté dans cet article est, de part sa modularité, un système souple et adaptable. Il présente de nombreux avantages : pratique progressive de la veille, acceptabilité accrue des chercheurs, possibilité de transfert de compétences, possibilité de choisir l outil en fonction des évolutions technologiques. Les modules de ce système peuvent être proposés et transférés à tout acteur intéressé (département de recherche ou entreprise). Des améliorations sont en cours, notamment l intégration de modules de diffusion automatisée d information (newsletter rédigée automatiquement, bulletin d alerte) tout comme l intégration de nouveaux outils d analyse. Ceci permettra de servir au mieux les différents acteurs intéressés par le développement d actions de veille, au travers d un système complètement modulable et adaptable aux besoins et spécificités de chacun. 6 Bibliographie [1] Baldit P., Fabreguettes V., Jonquiere A.-M., SIMBAD : Système d Interrogation Multi Bases d Aide à la décision, VSST 98. [2] Ibekwe-SanJuan F., SanJuan E., TermWatch : variations terminologiques et veille scientifique, ISKO-France, Grenoble, 3-4 juillet 2003. [3] François C., Dubois C., Royauté J., Utilisation d un système d analyse de l information dans le processus de veille scientifique et technique : pratiques collaboratives induites. 3 ème Congrès du Chapitre français de l International Society for Knowledge Organisation (ISKO), Paris, 5-6 juillet 2001, p.79-87. [4] Grivel L., François C., Une station de travail pour classer, cartographier et analyser l information bibliographique dans une perspective de veille scientifique et technique, 1996. [5] Royaute J., François C., Besagni D, Apport d une méthodologie de recherches de termes en corpus dans un processus de KDD : application de veille en biologie moléculaire, VSST 2001. [6] KBCrawl v 2.1., Manuel utilisateur, BEA Conseil, 2004. http://www.beaconseil.com/products/kbcrawl/help/index.htm [7] Tropes-Zoom, Manuel de référence, ACETIC. [8] MathéoAnalyser, Guide de l utilisateur, IMCS. http://www.matheo-software.com/help.asp?application=analyzer&lang=fr [9] WordMapper Pro v 6.5., Analyse et cartographie de l information textuelle, Grimmer Logiciels, 2002.