TD 6 : Principes d indexation et mots clefs de recherche documentaire Introduction : La méthodologie documentaire c est l ensemble des méthodes permettant de trouver l information. Votre recherche documentaire pour être efficace, efficiente et exhaustive doit être systématique et méthodologique ; c est un travail étape par étape, partant du sens pour retourner au sens. ( boucle de recherche) Construire la question documentaire Délimiter d'abord le contexte général : la période, la zone géographique, les domaines disciplinaires, l'auteur ou les thèmes concernés.. (Revoir le TD sur «les outils de références»). Cette première étape permet de clarifier les notions impliquées par le sujet (termes utilisés, synonymes, notions associées...) ; et fait apparaître des noms, des événements, des notions qui pourront être des clefs de recherche. Comment trouver des documents sur un sujet? La recherche par "mot-clé" dans un catalogue bibliographique ou des bases de données est un moyen efficace de trouver des documents pertinents sur un sujet précis, y compris sur un auteur lorsque celui-ci est l objet de la recherche. Quels mots utiliser pour une recherche "matières"? Il n'est pas possible d'utiliser n'importe quel mot. Les mots que vous choisissez, doivent correspondre à ceux qui ont été utilisés pour décrire le document. Lorsque vous n'obtenez aucune référence (silence) : cherchez et utilisez un autre mot ; lancer plusieurs recherches pour des résultats complémentaires. Lorsque les résultats sont au contraire trop nombreux (bruit), il faut restreindre votre question en choisissant des termes plus précis, plus spécifiques. Les mots-clés sont répertoriés dans des index.
1. Les principaux index. Un index est une liste ordonnée de mots, le plus souvent alphabétiques. Un index procède d une analyse de contenu des documents. Ainsi en recherche avancée sur le catalogue e-bulco, les différents champs de recherche, titre, auteur, sujet, éditeur correspondent à des index. Index de noms propres : le champs auteur dans un catalogue ou une bases de données, mais aussi à la fin d un ouvrage pour retrouver les personnes et/ou les lieux cités. La présence d un index dans un document est signalée sur la notice bibliographique dans la zone de notes. Ex : bibliogr. p. 265-278. Index Index titres : titres des ouvrages ou des périodiques dans un catalogue, et aussi titre des articles dans une base de données. Ex : L abécédaire sur e-bulco est un index des titres de périodiques L indexation auteurs ou titres est relativement simple, il n en est pas de même pour décrire le contenu intellectuel d un document. Index matière : liste des termes employés pour décrire le contenu intellectuel d un document. Les expressions mots-sujets, mots-clefs, mots matières, lexiques, descripteurs sont équivalentes. En général, le titre ne fait guère plus que mettre en relief un ou deux mots importants, voire n informe en rien. Ex : «les enfants perdus du XXè siècle» de Frédéric Gaussen Ici le titre n apporte pas d informations précises sur le sujet dont il est question dans l ouvrage. Est-ce un livre sur les enfants, la jeunesse, les orphelins? Est-ce une approche historique, sociologique, philosophique, littéraire, etc? D où l importance de l indexation matière qui consiste à décrire le contenu intellectuel du sujet. Ce travail d indexation réalisé par des professionnels, en suivant des règles normalisées de description, a pour objectif de faciliter la recherche documentaire afin de trouver tous les documents portant sur un même thème, quels que soient les mots utilisés pour exprimer ce thème.
2. La recherche de mots-clefs matière : exercices (TD) 3. Principes d indexation et langage documentaire 3.1 Définition De nos jours tous les différents types de documents contiennent de l'information, qu'il convient «d'étiqueter» clairement afin que ceux qui désirent la consulter puissent y accéder aisément. «L'indexation consiste à identifier dans un document certains éléments significatifs qui serviront de clé pour retrouver ce document au sein d'une collection. Ces éléments comprennent le nom de l'auteur, le titre de l'ouvrage, le nom de l'éditeur, la date de publication et l'intitulé du sujet traité. Des règles d'usage régissent le choix et la forme des noms, les listes de vedettes matières, les plans de classification et d'analyse documentaire. La programmation et l'impression des index par ordinateur ont accru l'importance de ces codes. La complexité des documents modernes et la variété des formes sous lesquelles ils se présentent exigent qu'on aborde de façon systématique la construction des index et leur emploi.». Sources : FOSKETT Douglas J., MANIEZ Jacques. Indexation. In Encyclopédie Universalis [en ligne] http://www.universalis-edu.com/encyclopedie/indexation/# (consulté le 1/12/2011) L auteur, le titre, la date et le lieu de publication, l'édition, le nombre de pages, la présence de cartes, de plans, de tables et d'illustrations, et l intitulé du sujet traité sont des éléments de description et d identification. L'ensemble du processus de description porte le nom de CATALOGAGE. L ensemble des notices bibliographiques décrivant les documents constitue le catalogue. 3.2 les langages documentaires L'indexation matières soulève difficultés et controverses. D'abord, le choix des termes implique une définition de ceux-ci, or les définitions ne font pas toujours l'objet d'un accord unanime, surtout d'un pays à l'autre ; ensuite, les progrès de la connaissance risquent de changer les rapports entre sujets. Le vocabulaire utilisé dans l indexation matière est un vocabulaire contrôlé qui permet de gérer les questions de synonymie ou d homonymie.
Ex : le terme «logement» sera retenu comme mot-clef pour les termes «maison, immeuble, logis, habitation» qui portent sur le même concept. Ex : le terme «souris» désigne deux réalités différentes : le rongeur et le périphérique informatique. Donc des termes distincts seront alors choisis : «souris» et «souris (informatique)» Le vocabulaire contrôlé peut aussi aider à circonscrire l étendue conceptuelle d un sujet de recherche, en proposant des termes génériques, des termes spécifiques, des termes associés et termes rejetés. Ex : danse (dans Rameau) Terme générique : art du spectacle Terme associé : chorégraphe, chorégraphie, art et tradition populaire Terme spécifique : danse classique, danse contemporaine, danse traditionnelle. Terme rejeté : ballet, danse profane, tango Il existe deux grands types de langage documentaire Pour qu'un langage documentaire soit compris, il faut qu'il présente un fondement théorique reconnaissable pour les utilisateurs, qui s'apercevront ainsi qu'il a un sens pour eux. Les systèmes fondés sur les disciplines universitaires ont un sens parce qu'ils expriment la façon dont leur époque se représente l'organisation des connaissances humaines ; mais, en contrepartie, ils n'abordent qu'avec précaution les idées nouvelles. Les langages documentaires analytiques pour décrire les différentes composantes thématiques d un document et dont font partie les thésaurus. Un thésaurus est un lexique complexe et complet pour une discipline ou un sujet. Les mots clef de l Encyclopédie Universalis forment un thésaurus. Les termes ont des liens entre eux, et des renvois sont proposés. Dans l Encyclopédie Universalis une recherche sur le cinéma propose 118 termes, ayant tous un rapport avec le cinéma, et qui renvoient aux articles traitant de ces sujets. Les langages documentaires synthétiques qui permettent de situer les différents thèmes d un document. Les classifications comme la classification DEWEY Une classification organise tous les domaines de la connaissance en un système ordonné de classes et sous-classes. L indice numérique permet aussi le classement physique en rayon.
Ex : histoire de la littérature tragique indice 809.916 situé dans la subdivision 809 (histoire analyse critique littéraires générales) elle même dans la classe 800 (littérature) Les listes de mots matières. RAMEAU (Répertoire d'autorité-matière encyclopédique et alphabétique unifié) est le langage d'indexation matière utilisé, en France, par la Bibliothèque nationale de France, les bibliothèques universitaires (SUDOC), de nombreuses bibliothèques de lecture publique ou de recherche ainsi que plusieurs organismes privés. (Généralis). Dans RAMEAU les mots matières sont appelés autorités, leurs constructions est normalisées et structurées. (exemple sur la danse) 3.3 les mots-clefs sur la documentation électronique Les moteurs de recherche utilisent un algorithme (séquence d instruction logique) pour localiser et quantifier une chaîne de caractères dans les diverses pages publiées sur internet ou dans les bases de données. Cette chaîne de caractères n est pas considérée comme un mot puisqu aucun sens n y est rattaché. Cette chaîne de caractères est recherchée dans le texte intégral. De nombreuses bases de données comme Cairn, Persée, Revues.org ont défini leur propre index matière et n utilisent pas le langage documentaire Rameau. Il vous faut donc adapter votre recherche aux mots-clefs proposés par chacune. Quant aux moteurs de recherche ils recherchent le mot-clef de votre requête de recherche dans le texte intégral des pages web tout en suivant un ordre : titre de la page, 1 er paragraphe ; et en ajoutant un indice de popularité (page les plus consultées mais pas toujours les plus pertinentes) Google et exalead proposent néanmoins des mots-clefs associés à votre requête. (TD Recherche sur internet) Sur les sites collaboratifs (Web.2) les mots-clefs sont proposés par les utilisateurs, et sont appelés Tags. On parle de langage naturel. Les spécialistes des sciences de l information et des linguistes travaillent actuellement sur le développement du Web sémantique. Ce Web de demain devrait aider l utilisateur à exploiter les affinités thématiques entre documents.