Questin de l indexatin et Avenir des langages Dcumentaires Plan : les limites et les incnvénients du web actuel Principales évlutins : grandes tendances du côté des utils de recherche du côté du marché des utils et de celui de l'infrmatin du côté de la structuratin et de l'indexatin de l'infrmatin Web sémantique : W3C Objectifs visés : une meilleure structuratin du web Cmment? Nrmaliser l'indexatin, cad les langages permettant de décrire et d'indexer le cntenu des dcuments : classificatins, ntlgies, thésaurus... Grands travaux de recherche Nrme d indexatin : les metadnnées (cf. interventin Michel Dumas) Onthlgie et thesaurus partageables Ex : nthlgie du dmaine agricle Ex : thesaurus multilingue Prtail médical Caducee Avenirs des Langages Dcumentaires : Evlutins en curs : 1 Indexatin et traitement des dnnées Cnstitutin, taille, bjet des index Nature des ressurces indexées Méthde d indexatin et traitement du Langage Nature Traitement linguistique Traitement statistique 2 Requêtes : présentatin des résultats Requêtes Langages des requêtes Types de requêtes Présentatin du résultat de requête Indice de pertinence
Indice de ppularité Tri par calcul dynamique Technique de classificatin et affinement de requête Classificatin autmatique Ex : lgiciel : util de catégrisatin (article d Archimag n 157 et article en ligne de l ADBS) Explitatin des hyperliens et présentatin graphiques des résultats Cartgraphie u «Mapping» Ex : Takma, Kart, Mapstan Exemples : Lgiciels d analyse de texte Mteur de navigatin : Easyglider, Askjeeves, Exalead, Tema, Wisenut, Mirag Web invisible Sciétés Evlutins technlgiques d Internet Aspects majeurs Grandes tendances des usages 2
La Jurnée d'étude de l'adbs en avril 2002, intitulée : "Du thésaurus au web sémantique : les langages dcumentaires nt-ils encre un avenir? " Cnstat : Flux crissant d infrmatins les limites et les incnvénients du web actuel : hétérgénéité des frmats (Wrd, excel, PDF, PHP, ASP..), des infrmatins (Images, Phts, sns) absence de descriptin et d'indexatin des ressurces imprécisin de la recherche d'infrmatin absence de structure explicite glbale du web : réseau de neuds et de liens, mais pas d'explitatin sémantique des liens hypertexte web visible et web invisible Principales évlutins qui vnt tucher le web, les technlgies de l'infrmatin et de la mémire, les utils et méthdes de recherche d'infrmatin : Grandes tendances du côté des utils de recherche : essr des utils spécialisés sur un dmaine, un type de ressurces, un public nmbreux perfectinnements techniques à attendre dans les capacités des utils de recherche, ntamment par l'intégratin des techniques d'indexatin et de traitement du langage naturel dévelppement pssible, sur le web, des techniques de recherche d'images par le cntenu du côté du marché des utils et de celui de l'infrmatin : essr des lgiques purement cmmerciales au ceur même des techniques de recherche (vente de mts-clés, dévelppement des techniques de psitinnement payant, effets pervers de l'indice de ppularité, Spamming...) nuveaux risques liés à la prpriété intellectuelle dans le dmaine des prduits de la recherche d'infrmatin : tentatives de certaines firmes de faire breveter les mts-clés, les cncepts, les nms prpres, les classificatins... (phénmène cmparable à celui de la "brèvetabilité du vivant") du côté de la structuratin et de l'indexatin de l'infrmatin : 3
mutatins les plus prfndes, cnditinnant tutes les autres : travaux autur du "web sémantique", XML, les métadnnées, la nrmalisatin, l'essr des techniques d'indexatin... Avec le Web sémantique : meilleure structuratin du web - rendre explicites les relatins sémantiques (les liens) entre les dcuments du web - faciliter l'utilisatin et la recmpsitin des ressurces par les machines - ajuter des anntatins sémantiques aux ressurces du web, décrivant leurs cntenus et leurs fnctinnalités - permettre une meilleure interpérabilité : des ressurces et des machines - dévelpper une grammaire universelle pur la prductin, le stckage et l'échange des dnnées : XML Enjeu : permettre et dévelpper un accès "intelligent" à l'infrmatin Cmment? Nrmaliser l'indexatin, cad les langages permettant de décrire et d'indexer le cntenu des dcuments : classificatins, ntlgies, thésaurus... Les grands travaux de ce chantier de recherche Les utils et les nrmes d indexatin des dcuments : les metadnnées la cnstructin d'ntlgies et de thesaurus partageables : présence des thésaurus dans les nuvelles prblématiques de l'indexatin Ontlgie : Frmalisatin d une cnceptualisatin : lever les ambiguités Représentatins frmelles d'un dmaine de cnnaissance sus la frme de terminlgies dtées de relatins sémantiques (nn limitées aux relatins sémantiques du thésaurus dcumentaire). Une ntlgie structure les termes d'un dmaine, en établissant des relatins de prximité entre eux, du type "partie de". Une partie du travail de cnceptin et de nrmalisatin, a déjà été réalisé et est frtement sutenu par le W3C. Identifier les cncepts et les relatins cnceptuelles d un dmaine ; se mettre d accrd, au sein d une cmmunauté, sur les termes emplyés pur se référer à ces cncepts / relatins partitives. 4
Exemple d ntlgie dans le dmaine agricle : http://www.fa.rg/agris/as/as_fr/default.htm Prjets d ntlgies : http://www.fa.rg/agris/as/as_fr/nuvelles/nuvelles.htm Thesaurus : 1 /Article d Elisabeth Freyre : «Macs délie les langues» paru dans la revue Archimag n 157, septembre 2002. Travaux de quatre biblithèques eurpéennes : Deutsche Biblithek, BNF, Biblithèque Natinale de France, British Library, Biblithèque natinale suisse. Mise en place d un thésaurus multilingue : établissement de crrespndances entre leurs langages d indexatin. Cnsultatin en ligne du prtpype de Macs : en un seul clic, un internaute allemand peut accéder à tus les dcuments pertinents sur «Strassentheater» du catalgue de la Deutsche Biblithek mais également des catalgues des tris autres biblithèques, indexés seln leurs prpres critères d indexatin et dans leur prpre langue. Cette recherche multilingue est pssible grâce au «mapping» effectué entre les tris langages d indexatin encyclpédiques utilisés par les partenaires : «Strassentheater» = «Théâtre de rue» = «Street theater» 2 /Thesaurus en frmat XML : Présentatin tabulaire de Thesaurus et sa surce http://www.ajlsm.cm/prjets/sdapa/dems/thesaurus.html#xml Prtail : Par les techniques de descriptin et d'indexatin mises en euvre et par les services fferts, Caducee.net est un prttype du Web sémantique. Fnds de ressurces médicales accessibles aux prfessinnels : entre 25 000 et 30 000 dcuments, accessibles par 500 000 "pints de vue" 5
Objectif de Caducee : permettre aux utilisateurs (prfessinnels santé) de retruver une infrmatin pertinente avec le mins de "bruit" pssible, et par de nmbreux accès (u "pints de vue") : date, auteur, discipline, thème clinique Prtail de la santé : http://www.caducee.net http://www.adbs.fr/uplads/jurnees/572_fr.php Chix d une duble indexatin basée sur : - un index générique : Dublin Cre, Metadata - un indexe spécifique par mts-clés : MeSH (MEdical Heading Subject) - un mteur de recherche cntextuel «L utilisatin d un thésaurus est indispensable pur indexer crrectement et pertinemment du cntenu médical. Ces thésaurus divent être adaptés, standardisés et maintenus par des rganismes prfessinnels. Seuls les métathesaurus internatinaux répndent à ces critères, dnt le MeSh chisi par caducee.net.» «Il est indispensable de mettre en place une méthdlgie stricte en cncertatin avec une équipe multidisciplinaire frmée à l indexatin : dcumentalistes, médecins, bilgistes et paramédicaux. L indexatin autmatique u semiautmatique n est pas une méthde fiable pur la santé.» Cnséquences du web sémantique : Buleversements à prévir dans la prductin, l'échange et la recherche d'infrmatins sur le web : Travail en prfndeur dans la trame même des dcuments et de l'infrmatin, au niveau "micr" des dcuments ; imprtance de la ntin de "granularité" de l'infrmatin pssibilités inédites de recherche intelligente sur le cntenu nuvelles frmes de représentatin de l'infrmatin : en amnt (lrs de la cnceptin avec XML) et en aval (lrs de la recherche) TEI, Text Encding Initiative La TEI basée sur le langage SGML, permet l'échange des dnnées textuelles et d'autres types de dnnées : images u sns. 6
Applicatins : publicatin électrnique - analyse littéraire et histrique - lexicgraphie - traitement autmatique des langues, recherche dcumentaire - hypertexte... RDF, un cadre de descriptin Applicatins : - recherche d'infrmatin, pur dnner aux utils de recherche des pssibilités accrues. - catalgage : descriptin du cntenu et rapprts avec les divers cntenus d'un site web - partage et échange de cnnaissances, via des agents lgiciels intelligents Autres système des descriptin : l'identificatin des dcuments numériques DOI u Dcument Oriented Interface / Interface Orientée Dcument. Le DOI est un identifiant unique et persistant d'un dcument (texte, livre, phts, etc.). C'est à dire que la page peut changer d'adresse mais que le DOI permettra tujurs de la retruver. Avenirs des Langages Dcumentaires : Evlutins en curs :? L'imprtance de la questin de l'indexatin : la questin de l'indexatin des ressurces électrniques est LA questin centrale de la nuvelle écnmie du savir en émergence : distrsin entre la facilité d'accès au dcument physique et la faiblesse de l'accessibilité sémantique : prblème n 1 sur le web : cmment truver l'infrmatin pertinente? Actuellement, limites des mécanismes d'indexatin des utils de recherche : pas d'indexatin sémantique, niveaux suvent frustes d'indexatin...? Un cnstat : tutes les frmes et tus les mdes d'indexatin présents sur Internet : 7
utilisatin des classificatins a priri : annuaires lgiciels de classificatin autmatique indexatin du texte intégral listes de mts clés indexatin par les métadnnées thésaurus lgiciels de cartgraphie de l'infrmatin : Kart.cm...? Oppsitin fréquente mais artificielle des deux grands mdes d'indexatin : indexatin dcumentaire par un langage indexatin autmatisée sur le texte intégral? En fait, cmplémentarité de plus en plus frte des deux apprches, dans différents systèmes dcumentaires L'indexatin, et le traitement des dnnées Rappel du principe de cnstitutin des index La taille de l'index Les bjets de l'indexatin La nature des ressurces indexées Les méthdes d'indexatin et de traitement du langage naturel Rappel : tris types de mteurs : Rbt cllecteur : mdule de cllecte autmatique de dnnées Mteur d indexatin : mdule d indexatin autmatisée de dnnées Mteur de recherche : mdule de gestin de requêtes, de présentatin de résultats Principe de cnstitutin des index A partir des dnnées cllectées par un rbt explrateur, le mdule indexeur cnstruit un index général de recherche des dnnées. L'index d'un mteur cnstitue sa base de dnnées ; il est cnstitué : - d'un index principal, cntenant les millins (vire les milliards) de pages web et de dcuments capturés par le rbt cllecteur - de fichiers inverses, cntenant tus les termes d'accès, renvyant aux 8
pages web. Principe des index de recherche : Fichiers rdnnés, cntenant les caractéristiques des dcuments et les reliant aux dcuments traitant des mêmes sujets. L'indexatin autmatisée repse sur la ntin de fichier inverse :? Fichier inverse : fichier rganisé par rdre alphabétique de descripteurs, de mts-clés u de mts, derrière lesquels figurent les numérs des ntices pssédant ces termes. Ce fichier est " inversé " par rapprt au " fichier direct " (u principal.) Il est lu en accès direct sur les mts-clés de la questin. Dans les systèmes d'index en texte intégral, les fichiers inverses snt des fichiers cntenant les mts du texte, classés alphabétiquement, avec l adresse précise de leur ccurrence dans le texte. Dans les fichiers inverses des mteurs de recherche, chaque terme pinte vers les URL des pages qui cntiennent le terme. Variatins de l'indexatin seln les mteurs et les règles suivies Quatre éléments essentiels à prendre en cmpte pur le mdule d'indexatin :? La taille de l'index : nmbre de dcuments indexés? Les bjets de l'indexatin : qu'est-ce qui est indexé (la ttalité, des parties du dcument...)? La nature des ressurces indexées : frmat, texte, image...? Les méthdes d'indexatin et de traitement des dnnées : traitement linguistique, niveau d'analyse, utilisatin des utils de TALN... Mises à jur péridiques. Mise à jur de l'ensemble de leur index = plusieurs semaines (et va en augmentant cmpte tenu de l'évlutin du web). La taille de l'index 9
Nmbre de pages dans la base de dcuments du mteur de recherche. Très variable seln les mteurs : de quelques centaines de milliers de dcuments à plusieurs milliards. Aux débuts des premiers mteurs, cmme Alta Vista, bjectif de cuverture exhaustive du web : 60 millins de dcuments indexés par Alta Vista en juin 97. Aujurd'hui, la mitié à peine du web serait indexée par les 8 plus grands mteurs. Les deux plus grs : All The Web et Ggle. Exemple des bases de dnnées des tris principaux mteurs (nmbre de pages web indexées) : Mteu rs G gle AllThe Web AltaVi sta Octb re 2000 500 millins 575 millins 350 millin s Décem bre 2001 3 milliards 630 millins 397 millin s Janvie r 2003 3 milliards 33 millins 2 milliards 106 millins 1 milliar d 689 millin s Aujurd'hui (janvier 2003), ces 3 mteurs snt suivis par : - Wisenut - Htbt - MSN 10
- Tema : 500 millins Les bjets de l'indexatin Tus les mteurs n'indexent pas les mêmes parties d'un dcument, ni de la même manière. Différents champs pris en cmpte lrs de l'indexatin : Le titre des pages web : Titre d'une page web, prpsé par le cncepteur du site. Situé entre balises <TITLE> et </TITLE>. Imprtance du titre : - titre d'une page web tujurs affiché sur le navigateur. - titre généralement affiché sur la page de résultats du mteur - 1er critère de pertinence pur la plupart des mteurs - lngueur du titre prise en cmpte variable seln les mteurs - éviter mts vides Tus les mteurs de recherche indexent le titre Les métadnnées : Balises de métadnnées, dnnant une infrmatin sur le dcument Remarques : - balises méta ne snt pas visibles par l'utilisateur, mais snt dans le cde surce de la page. Pas prises en cmpte par les annuaires thématique. - 20 à 30 % des pages web cntiendraient des balises META. - imprtance des balises META pur le référencement d'un site web par les mteurs de recherche - prblème et enjeu du "spamming", ennemi n 1 des mteurs. Deux grands types de métadnnées : Balises META "Descriptin" : 11
<META NAME="descriptin" CONTENT="..."> Permettent de décrire le cntenu d'une page, sus frme de résumé. Indexatin de la Balise Méta Descriptin : très variable seln les mteurs. Descriptin affichée par le mteur dans la page de résultats, pur dnner un aperçu du cntenu. Lngueur de la balise suvent limitée : 150-200 caractères Lrsqu'une page web ne cntient pas de balise META «Descriptin», certains mteurs affichent les premiers mts visibles sur la page 1. Balises META "Keywrd" : <META NAME="keywrds" CONTENT="..."> Permettent de caractériser le dcument par un u plusieurs mts-clés, pris en cmpte u nn par les mteurs de recherche Usage des balises Keywrds : 100 mts-clés, u 1000 caractères. Au-delà, balise cnsidérée cmme du spamming et éventuellement pénalisée. Le crps du texte : 2. Crps "visible" de la page. La plupart des grands mteurs de recherche indexent le texte des pages web : sit de manière limitée : jusqu'à une certaine taille du texte (par ex., chez Alta Vista, tut le texte indexé jusqu'à 100 K, seuls les liens indexés audelà de 100 K, plus rien au-delà de 4 M) sit de manière illimitée : quelque sit la taille du texte (HtBt, Ggle..) Quelques variantes dans l'indexatin du texte Début du texte et premiers paragraphes suvent plus imprtants (Lycs, Nrthern Light...) pages curtes mieux indexées que pages lngues (HtBt...) indexatin égale du texte entier (Ggle) Les URL : URL cnsidérée cmme un champ de recherche interrgable Presque tus les mteurs aujurd'hui indexent l'url des pages web 12
Les frames (cadres) : Frames : pages web divisées en cadres, cnstituées : - d'un fichier "mère" : sert uniquement à la descriptin des znes. Suvent appelé cadre.htm, u frame.htm. Fichier vide de dnnées - de fichiers "fille" : cadre du haut, de gauche et central. Généralement nn cllectées et nn indexées par les mteurs de recherche. Quatre slutins pur les mteurs : Page web avec frames ignrée : aucune indexatin ; situatin la plus répandue Indexatin seulement du fichier "mère" et ignrance des fichiers "filles" ; situatin assez curante ; Résultat : le cadre vide est indexé seul et nn les dnnées cntenues Indexatin des fichiers "mère" et "filles" cmme des fichiers distincts, sans indexatin des liens entre eux. Résultat : perte du cntexte des frames et affichage des fichiers islément Indexatin des fichiers "mère" et "fille" avec leurs liens : slutin idéale, respectant l'rganisatin des frames. MAIS pratiquement aucun mteur ne peut faire cette indexatin. TABLEAU RECAPITULATIF DES CHAMPS INDEXES SUR QUELQUES UNS DES PRINCIPAUX MOTEURS (Alta Vista, HtBt, InfSeek, Lycs, Nrthern Light, Ggle, AlltheWeb, Vilà) Champs Titre des pages web Mteurs indexant le champ Tus Mteurs n'indexant pas le champ 13
Balises <META Descriptin> Balise <META Keywrds> Crps du texte URL Frames Alta Vista, HtBt, InfSeek, Vilà Alta Vista, HtBt, InfSeek, Vilà Tus (avec des variantes) presque tus -seulement le fichier "mère" : Alta Vista, InfSeek, AlltheWeb, Vilà ; parfis : HtBt, Lycs, Ggle - fichiers "mère" et "filles" indexés indépendam ment : Alta Vista, Nrthern Light ; parfis : InfSeek, Ggle, AlltheWeb, Vilà Lycs Nrthern Light, Ggle, AlltheWeb Lycs Nrthern Light, Ggle, AlltheWeb Lycs, AlltheWeb HtBt, Lycs La nature des ressurces indexées Prédminance des dcuments textuels dans l'indexatin par les mteurs de recherche Indexatin des dcuments images et snres : 14
? Tendance imprtante, depuis quelques années : 330 millins d'images sur Ggle en 2002? Mais indexatin du texte descriptif des images et des sns : légende, URL, titre... Pas encre d'indexatin du cntenu visuel u snre sur le web : travaux encre limités à des mteurs de recherche internes à des entreprises u des labratires? Nmbreux prblèmes juridiques Les méthdes d'indexatin et de traitement du langage naturel Analyse autmatique et recherche d'infrmatin sur le langage naturel snt cmplexes en raisn des caractéristiques du langage naturel + caractéristiques prpres de la recherche d'infrmatin Rappel des difficultés liées au langage naturel Difficultés prpres à la recherche d'infrmatins - éléments de discurs implicite - synnymie, redndance et glissements de sens - sens de base des termes et rôles cmplémentaires - prblèmes psés par les grupes de mts u mts cmpsés - Supprts des dcuments - Frmats de représentatin des textes - Méthdes d'interrgatin - Généralité u précisin de la questin - Prfndeur de l'analyse u de l'indexatin - Explsin cmbinatire engendrée par la recherche Traitement linguistique du langage naturel par les mteurs de recherche : Analyse mrphlgique, lexicale, syntaxique et sémantique Traitement statistique : 15
Principale méthde d'indexatin utilisée par les mteurs de recherche, pur déterminer "l'estimatin de la pertinence" (relevance feedback) : le traitement statistique des mts. Identificatin très difficile des pératins de traitement statistique du langage naturel dans les mteurs de recherche, car ces méthdes, repsant sur des algrithmes cmplexes : prtectin par les brevets La pertinence la pndératin : calcul du "pids" d'un mt, en fnctin de différents facteurs la similarité : appariement entre un mt du dcument et un terme de la requête Différents critères d'estimatin de la pertinence, retenus par les mteurs de recherche : la fréquence du mt dans le texte : pids d'un mt en fnctin du nmbre d'ccurrences éliminatin u sus-évaluatin des mts-vides pndératin des mts rares u peu fréquents... la densité du mt : calculée en fnctin du rapprt entre l'ccurrence du mt dans le dcument et la taille du dcument : si deux dcuments nt la même ccurrence pur le même mt, dcument plus petit sera favrisé en pndératin Exemple : si le mt "biblithèque" apparaît 10 fis dans deux dcuments, l'un de tris pages, l'autre de 50 pages, le dcument de tris pages sera jugé plus pertinent la psitin du mt dans le texte : pndératin plus u mins grande du mt seln sa pstin : titre, début, fin du texte (Alta Vista, HtBt) mt en majuscule u en caractère gras à l'intérieur du texte (Ggle) mt appartenant à une liste de mts cntrôlés la similarité des mts du dcument avec les termes de la requête : crrespndance exacte des mts : prise en cmpte de la casse (typgraphie, accents) prximité des termes rdre des mts : pris en cmpte u nn seln les mteurs Exemple : sur les termes "France-Allemagne" : 16
si l'rdre des mts pris en cmpte : Allemagne- France dnnera un résultat différent (Alta Vista, Ggle, Nrthern Light...) si l'rdre des mts nn pris en cmpte : Allemagne- France identique à France-Allemagne (HtBt, Lycs) En résumé : La majrité des mteurs de recherche sur internet nt des méthdes simples et rapides d'indexatin, dépurvues de traitements linguistiques cmplexes, fndées essentiellement sur les calculs statistiques de pertinence. Aspects négatifs : l'interrgatin des sites web par les mteurs de recherche avec des mts tirés du langage curant, peut dnner des résultats décevants, liés au faible niveau d'indexatin réalisée par les mteurs (0 / 0+), liés aussi au caractère équivque du langage naturel. Aspects psitifs : Un niveau d'indexatin faible (et même sans supprimer les mts vides) permettra tujurs de retruver sur internet des passages précis et des expressins littérales. L'intrductin prgressive des méthdes de TALN sur les mteurs de recherche, cmmencée sur quelques mteurs cmme AskJeeves, Exalead, Alta Vista, cnstitue l'un des axes majeurs de dévelppement des utils de recherche, mais aussi l'un des principaux défis, cmptetenu de la nature du web actuel. Les requêtes : présentatin des résultats 17
La requête : Requêtes de plusieurs types : - thème u descripteur - mts du langage curant crdnnés par des pérateurs - expressin en langage naturel - dcument entier utilisé cmme exemple du sujet sur lequel n veut d'autres infrmatins - graphe de cncepts Types de requêtes des mteurs de recherche La recherche d'infrmatin asscie indexatin et interrgatin. Prblème sur internet : Interrgatins brutes à partir de mts du langage curant = beaucup de bruit et de silence Recherche d'infrmatin cmme prcessus itératif, mettant en euvre plusieurs requêtes successives permettant d'affiner les résultats rendus par le système = imprtant sur internet (recherche simple sur Altavista). Le langage des requêtes Une syntaxe quasiment cmmune à la plupart des utils de recherche : - Opérateurs bléens ET - OU - SAUF s'appliquent à la fis à la recherche de mts cmbinés dans le texte libre et à la recherche sur champs. Nécessité de cnnaître l'pérateur par défaut qui s'applique sur chaque mteur. - Opérateurs numériques cnsiste sur les mteurs de recherche à prendre en cmpte la date de mise à jur du dcument (et nn la date de publicatin d'un article par exemple) - Opérateurs sur le texte intégral : variante sur les mts Trncature manuelle, autmatique - Recherche d'une expressin 18
Les différents types de requête sur le web - Requête par utilisatin de mts du langage naturel - Requête en langage naturel prpsée par quelques mteurs de recherche : Askjeeves InfClic = réalisatin de traitements linguistiques du type : suppressin de mts vides (articles, prépsitins...); transfrmatin des mts en leur racine par trncature; la lemmatisatin (identificatin d'un mt par sn lemme = frme nn fléchie) mais prblème d'efficacité lié à la très grande hétérgénéité des dcuments du web. Présentatin des résultats de la requête : Evlutin dans l'rganisatin et le cntenu des pages de résultats (listes). La page de résultats présente traditinnellement différentes znes crrespndant à différents types d'infrmatin : rappel de la requête liste des résultats résultats d'rigine, btenus autmatiquement résultats spnsrisés type d'infrmatin... catégries d'un annuaire cmplémentaire Les mteurs de recherche se snt enrichis en fnctinnalités, également en ce qui cncerne les résultats des requêtes : sus-partie du mdule de recherche = présentatin des résultats (tri, classement, affinement de la requête, catégrisatin) nuveau cmpsant en aval de la chaîne : le mdule d'explitatin des résultats avec les utils de cartgraphie et de navigatin. 19
Sélectin de sites par les hyperliens, méthdes de classement des mteurs de recherche et analyse de c-citatins Ntin de pertinence : Les résultats d'une requête snt classés par pertinence u relevance ranking = système,qui est censé faire apparaître en permier lieu les résultats jugés les plus pertinents. + pssibilité de générer (manuellement u autmatiquement) une nuvelle requête plus adaptée, plus fine = "relevance feedback". Dévelppements technlgiques des mteurs visant à puvir juger de la pertinence des dcuments retruvés, avec par exemple : l'attributin d'un pids aux dcuments et classement par pertinence décrissante, classificatin et enfin recherche par similarité ù le dcument retruvé peut être la surce d'une nuvelle requête (Find Similar / Related Pages u Search). Dévelppement par les mteurs de recherche de méthdes de tri autmatique des résultats. Variété de ces méthdes. Objectif du classement : > Vise à afficher dans les 10 à 20 premières répnses les dcuments qui en principe répndent le mieux à la questin. 3 grandes méthdes de classement : 1. Tri par pertinence / indice de pertinence Mesure qui est fndée à la fis sur la fréquence d'apparitin des termes de la requête dans la page et sur leurs lcalisatins ; cet indicateur est utilisé systématiquement par tus les mteurs de recherche Critères : Pids d'un mt dans un dcument en fnctin de la place qu'il ccuppe dans ce dcument : le mt aura un pids plus grand s'il fait partie du titre u figure en début de texte. A l'intérieur du texte, il aura un pids plus imprtant s'il est écrit en majuscules. 20
Fréquence d'ccurrence dans le dcument par rapprt à la taille du dcument. Pur un même nmbre d'ccurrences, pids supérieur au dcument le plus petit. Pids d'un mt dans la base déterminé par la fréquence d'ccurrence dans tute la base de dnnées. Mts rares favrisés. Mts vides sit éliminés, sit sus-évalués. Expressins : similarité entre expressin de la questin et expressin dans le dcument dnne au dcument le pids le plus élevé. Le degré de prximité des termes dans le dcument induit un pids plus élevé. Intrductin des balises Meta dans le calcul du scre : balises TITLE, META keywrds et META descriptin. Mais en fait, peu de mteurs en tiennent vraiment cmpte. Prblème : La méthde de tri par pertinence peut être déturnée : répétitin de mts imprtants dans l'en-tête u dans le texte = spamming. Mteurs utilisant le tri par pertinence = AltaVista, Ecila, Excite, FAST, HtBt, Inktmi, Lkace, Vila... 2. Le tri par ppularité / indice de ppularité Pur pallier les incnvénients de tri par pertinence Prise en cmpte nn plus du cntenu, mais de la spécificité du Web = les hyperliens. Les liens peuvent être cnsidérés un peu cmme des relatins sémantiques : si une page fait un lien sur une autre, les deux abrdent prbablement la même thématique. + le nmbre de liens pintant vers un site cnstitue un indice de ppularité de celui-ci = tri par ppularité. Les pages web snt rdnnées seln leur ntriété. Ce principe est directement inspiré des recherches menées en scientmétrie. 21
Le tri par ppularité recuvre 2 méthdes : Méthde fndée sur la c-citatin Algrithme d évaluatin de pertinence fndé sur la nature même du web, cad sn hypertextualité : algrithmes vnt dnc explrer les réseaux de dcuments et de liens qui relient les dcuments. cf : le mteur Ggle, lancé en 1998 à l'université de Stanfrd, utilise le principe mettant en relatin liens et ppularité pur le calcul de "Relevance Ranking" et le classement des pages de résultats. Classement des pages par une cmbinaisn de plusieurs facteurs dnt le principal = PageRank. PageRank = les pages affichées en premier snt les pages référencées de nmbreuses fis = celles auxquelles abutissent de nmbreux liens faits sur une page + imprtance des sites qui pintent vers les résultats de recherche. Les pids des dcuments snt pré-calculés par cette méthde et se basent sur leur ppularité par le système de liens. Visibilité de la ppularité par les fnctinnalités des mteurs de recherche : utilisatin de la fnctin link d'altavista = link:www.uhb.fr/page1 -hst:www.uhb.fr Classement indépendant du cntenu. 2 prblèmes se psent : - Certaines sciétés nt établi des liens artificiels cntre paiement + prblème de l'aut-citatin Pur cntrer la pratique des liens artificiels, Ggle calcule un indice de ppularité à duble niveau : calcul également de l'ipp (indice de ppularité de la page) des pages qui pintent sur les résultats de recherche = 0 dans le cas de liens artificiels. Méthde fndée sur la mesure d'audience cf : DirectHit (fndé en avril 98) prpse de trier les pages en fnctin du nmbre de visites qu'elles reçivent = indice de clic. 22
= analyse du cmprtement de l'internaute lrs de la recherche d'infrmatin et de l'utilisatin du mteur de recherche ; vise à truver les pages les plus ppulaires. nte quel lien a été cliqué et le rang de ce lien dans la page de résultats calcule le temps mis par l'utilisateur pur revenir à la page de résultats, s'il y revient (sinn = dcument pertinent = meilleur classement pur les prchaines requêtes). Pénalise les pages récentes, mais évite le spamming. 3. Tri par calcul dynamique de catégries Méthde de clustering u agrégatin (prpsée par Nrthern Light) ; dévelppé en biblimétrie dans les années 80 et appliquée à des crpus dcumentaires pur la veille technlgique. Actuellement, prise en cmpte par les utils de Text Mining ; utilisatin de catégries prédéfinies et de catégries repérées autmatiquement. Les techniques de classificatin et affinement de la requête Affinement de la requête Il arrive que les résultats d'une recherche sient nmbreux, même si ma requête est précise et crrecte. Les mteurs de recherche nt dévelppé plusieurs techniques permettant à l'utilisateur d'affiner sa requête initiale. = techniques de classificatin : - a priri, par des catégries issues d'un annuaire - a psteriri Mdalités : - affinement de fait de la questin par sélectin d'un cluster - explitatin des prpsitins issues de requêtes d'autres internautes (ex : Altavista cnstitute une base de dnnées des termes saisis par les internautes). Classificatin autmatique = technique explitée par certains mteurs de recherche pur rganiser le lt de résultats de la recherche et dnner alrs la pssibilité d'affiner u d'étendre la requête. 2 types de classificatin pssibles : 23
- classement des éléments dans des classes cnnues a priri = "classificatin par apprentissage supervisé". ex : Vila prpse en recherche apprfndie la pssibilité de faire sa requête en la limitant à un u plus dmaines prédéfinis. - regrupement a psteriri sur la base de similarités truvées dans tut u partie du dcument, nn définies au départ (créatin de grupes hmgènes dans le crpus) ; ensuite affectatin des dcuments aux grupes créés, avec un tri par pertinence au sein du grupe = clustering u "apprentissage nn supervisé" = déterminatin d'une relatin de ressemblance, de similitude entre dcuments, fndée sur des caractéristiques d'rdre statistique et sémantique; déterminatin du terme qui dnnera sn nm au cluster. > permet, grâce à l'énncé des classes thématiques, d'éliminer des crrélatins inintéressantes u au cntraire de détecter des ntins nuvelles. Lgiciels : Article de Michel Remize «Equipez-vus» paru dans la revue Archimag n 157 de Septembre 2002 Catégrisatin : Pratique du Knwledge Management : pur capitaler les cnnaissances, il faut cmmencer par les classer : util de catégrisatin u util Categrizer Etapes : 1 «cmprendre» les textes 2 les analyser pur identifier leurs cncepts, sur la base de fréquence de caractères ; «chaque texte reçit une «signature», métadnnées qui lui snt assciées ; grâce à elle, sa crrespndance à une catégrie du plan de classement est évaluée ; chaque nuveau dcument est autmatiquement cmparé aux dcuments y figurant déjà. Il est pssible de régler un «indice de similarité» pur dnner au système plus u mins de tlérance. En cas de rejet du dcument, une bite «nn catégrisé» est prévue, qu il cnviendra d examiner péridiquement». 24
Catherine LELOUP : «Catégrisatin et classificatin autmatique» Jurnée d étude ABDS http://www.adbs.fr/uplads/jurnees/571_fr.htm Ces fnctinnalités peuvent être cmplétées par une représentatin graphique Explitatin des hyperliens et présentatin graphique des résultats Elabratin d'une présentatin graphique à la place de la présentatin linéaire, à partir des liens établis dynamiquement entre les dcuments : cartes de cnnaissance... Cartgraphie : Cartgraphie u «Mapping» : réprésentatin de l infrmatin sus frme de carte. Carte : interprétatin du classement d une infrmatin ; lrsqu n classe une infrmatin, n la relie à d autres infrmatins grâce à des liens plus u mins flus. Sur une carte, n parvient à représenter le purçentage d appartenance d une infrmatin à plusieurs sujets, matérialisé par la distance entre les pints u les nœuds. Mapping : nuveau langage nn linguistique du dynamisme du savir ; descriptin de la cnceptin intellectuelle du savir. Le web et l hypertextualité du web entraine une mdificatin du mnde, du mde de pensée, de la cnceptin et de la cnstructin du savir. Le schéma cartgraphique permet un accès plus facile à cette représentatin. Les thesaurus snt des utils cartgraphiques ; Ex : Mtbis papier ; langage linguistique schématique des systèmes de pensée cgnitifs u encre un typde de classificatin parmi d autres. IM France, entité de la sciété Takma, créée pur le dévelppement de la méthde Infrmatin Mapping en France. Test de l efficacité de l infrmatin Mapping : exercice 1 : recherche une infrmatin dans un dcument nn strcuturé ; exercice chrnmétré. exercice 2 : recherche d une infrmatin structurée dans un dcument structuré avec IMAP. http://www.takma.fr/imap/multimedia/test/index.htm http://www.takma.fr/imap/default.htm 25
Ex : Kart / Mapstan Ce snt des mteurs de navigatin et nn plus des mteurs de recherche. Travail sur les c-ccurrences pur un recherche en texte intégral. Kart : carte dnt les neuds représentent des dcuments et les liens, des relatins entre ces dcuments; taille des neuds prprtinnelle au degré de pertinence du dcument par rapprt à la questin. Recherche du terme Indexatin : http://www.kart.cm/flash.php3 Représentatin cartgraphqiue des thèmes et liens pssibles autur du terme Indexatin. Mapstan : représentatin de type plan de quartier, mais avec principes similaires, à savir, les places représentant les dcuments et les rues les liens entre les dcuments (les neuds peuvent crrespndre à un u plusieurs sites) Vivisim : représentatin en arbrescence Fnctinnalités cmplémentaires Filtrage cllabratif, fndé sur l'utilisatin des requêtes d'autres utilisateurs Techniques d'extractin pur l'élabratin de résumés autmatiques des dcuments retruvés Exemples : Lgiciels : Résumé autmatique : http://www.pertinence.net/pmwhitepaper.pdf Présentatin du lgiciel Pertinence Summarizer de résumé autmatique. «Pertinence Summarizer résume des dcuments en quelques secndes u un livre de 250 pages en mille fis mins de temps qu'il ne faut pur les feuilleter. Ntre lgiciel fait gagner du temps jusqu'à 70% pur acquérir les infrmatins pertinentes des textes généraux et 80% pur des textes spécialisés.» Le «lgiciel de résumé de texte utilise une technlgie unique qui privilégie l'apprt de techniques linguistiques liées à des technlgies d'intelligence artificielle très avancées. Le lgiciel Pertinence Summarizer résume le texte en tenant cmpte de la 26
syntaxe, des dérivatins mrphlgiques (cnjugaisn, genre-nmbre), de la nminalisatin, de la synnymie... etc. Les mts snt crrectement infléchis et mis dans l'rdre apprprié.» «La qualité du résumé prduit tient au fait que <le > mteur de résumé ne s'intéresse qu'à des techniques purement linguistiques issues de la sémantique et de la pragmatique.» Analyse de texte : Editeur Lingway : lgiciel qui facilite la recherche en langage naturel, sur des bases multilingues et effectuée à la fis à travers une taxinmie et une équatin bléenne. «..Grâce à la linguistique, des utils se dévelppent, qui permettent d analyser le texte quasi-instantanément et d en faciliter la lecture» l éditeur Lingway «met en place une slutin facilitant la recherche en langage naturel» Le lgiciel «père un marquage XML en plusieurs «passages». Dans un premier passage, il recnnaît la structure du texte : titre, paragraphe, phrase Le deuxième passage repère sémantiquement les types d infrmatin : une annnce thématique, un lien causal, une cnclusin Il décrtique la structure rhétrique du texte. Le trisième passage identifie la nature des bjets dnt n parle. Par exemple, dans tel brevet, il est questin de charrue. A l issue de ces tris pératins, n abutit, seln l expressin de Bernard Nrmier, P-dg de Lingway, «à rendre le texte calculable». Le quatrième et dernier passage prcède alrs à une extractin de phrases et prpse une cntractin du texte, pur dire par exemple qu il parle de charrues en termes psitifs. Bien sûr, tut ce prcessus se dérule à la vlée de façn transparente pur l utilisateur. La sphisticatin est pussée jusqu à appliquer un cde de culeurs pur le repérage visuel des niveaux du texte dans le brevet : telle culeur pur l bjet du brevet, telle autre pur la critique de l état de l art, etc.» Mteur de navigatin : Easyglider http://www.easyglider.cm/accueilfr.htm»générateur de liens graphiques et cnceptuels, basés sur le cntenu des textes et des images, EasyGlider permet une navigatin naturelle pur l'utilisateur, par assciatins de cncepts u de cntenus entre les dcuments écrits et les dcuments images. Les slutins de navigatin, basées sur des techniques d'indexatin innvantes, facilitent le recherche de dcuments multimédias et permettent une cnsultatin efficace de vs dcuments quelque sit leur frmat.» Technlgie de Easyglider : La technlgie de ce mteur de navigatin est «basée sur des prcédés d' analyse graphique des images et sur l analyse sémantique des textes. EasyGlider analyse les caractéristiques visuelles, puis détermine la similitude entre images, en prenant en cmpte les textures, les culeurs et les cnturs. 27
Pur les dcuments écrits, EasyGlider analyse les cncepts puis indexe les dcuments à partir de la prximité sémantique. EasyGlider cnstruit des milliers de liens pertinents entre vs dcuments multimédias. Ces liens permettent ainsi de nuveaux mdes de navigatin, intuitifs, rapides et efficaces, dans vs bases de dnnées multimédias.» Adresse de la dém : http://www.easyglider.cm/dem.htm AskJeeves : Un mteur de questins http://www.ask.cm Technique assez riginale de recherche mise en euvre par un mteur : Ask Jeeves Principe de Ask Jeeves : cnstructin d une base de dnnées de questins suvent psées ; chaque questin a fait l bjet d une recherche sur le web, faite par des prfessinnells, et les répnses nt été stckées. Lrs d une nuvelle questin psée, Ask Jeeves va aller chercher dans sa base de questins la questin la plus prche. > ntin de " related searches " u recherches assciées, existant également dans d autres mteurs (Alta Vista) Exalead http://www.exalead.cm Principes technlgiques : - crisement des mteurs de recherche et de l'apprche du "text mining" : pssibilités de recherche identiques à celles des mteurs et métamteurs pssibilité d'analyse statistique des résultats, cmme les lgiciels de TALN Fnctinnement : lancement d'une requête à chaque requête, analyse statistique des résultats et prductin d'une synthèse sus frme de rubriques, de mts-clés et d'attributs pertinents pssibilité d'affinements successifs des requêtes, d'après ces analyses pssibilité également d'élargir la recherche,à partir d'un attribut, à un ensemble de dcuments 28
Tema http://www.tema.cm - prpse, utre les liens issus de sn index, des sites similaires à ceux qui snt présentés - une fnctinnalité riginale : liens sélectinnés par des experts, par le biais d'une apprche de recherche dans les cmmunautés scientifiques identifiées autmatiquement. Wisenut http://wisenut.cm Utilise plusieurs techniques pur juger de la pertinence d'un dcument : - l'analyse du texte de la page, - l'analyse du texte des liens qui pintent vers cette page ainsi que des termes qui enturent ces liens, mais également du cntenu des pages pintant vers le dcument analysé; Index annncé de 1,5 milliard de pages (parmi les plus grsses bases de dnnées actuelles du web); dans ses pages résultats, il tente une catégrisatin des liens prpsés assez prche des "Custm Search Flders" du défunt Nrthern Light = innvatin dans beaucup de dmaines. Mirag : http://www.mirag.fr Un nuveau mteur de recherche francphne Actuellement en versin Beta et dté de fnctinnalités riginales : histrique, syntaxe de recherche, page de résultats, critères de pertinence, sumissin d'un site, réginalisatin et thématisatin des URL, business mdel. Web invisible : Répertire de plus de 10 000 bases de dnnées, archives. http://invisibleweb.cm Métamteur de recherche sur le web invisible : versin à télécharger gratuitement ; valable 30 jurs. http://www.lexibt.cm Sciétés : 29
Lingway : http://www.lingway.cm/ Lexiquest : http://www.lexiquest.cm Cnclusin : La fnctin thésaurale au cœur des systèmes d infrmatin Bertrand Sajus Chargé d'études dcumentaires «Il est dnc urgent de renuveler les nrmes thésaurales en les repsitinnant par rapprt aux nuveaux utils et méthdes de gestin sémantique. Cette mise à jur devrait rienter le thésaurus nn plus vers l'indexatin manuelle mais vers les traitements autmatiques et semiautmatiques du langage tut en dévelppant sa fnctin heuristique. C'est dans cette perspective qu'il faut envisager l'avenir de la fnctin thésaurale au cœur des systèmes d'infrmatin.» Evlutins technlgiques d Internet Web visible : 4 millairds de pages Web invisible : 450 milliards de dcs Aspects majeurs : - rapidité : «ère d innvatin permanente» B Stiegler, philsphe de la ntin de temps Raccurcissement des délais entre l inventin et usage d un nuveau prduit. - Explsin des applicatins techniques Spécialisatin de l infrmatique - Augmentatin de la diversité des usages : évlutin de l Internet mbile - la prfndeur des innvatins traitement et stckage de dnnées : 2000 : pentium 4 : 42 000 milliers de transistr sur le prcesseur 2005 : Prévisin Intel : 400 000 milliers de transistrs sur le prcesseur Mémire vive : 2001 : Windws XP : 128-256 MO 2007 : 512 MO 1 GO Disque dur : 2001 : 40 GO 30
Disque dur : 2007 : 500 GO à 1TO (TetraOctet : 1000 milliards d ctets (d après JM Crnu, Internet. Les technlgies de demain) transfert de dnnées, réseaux sans fil, IPV6 : cde des adresses des machines sur 128 bits, au lieu de 32 pur IPV4. Principal avantage : nmbre d adresses quasi infinie. Cnséquences : Dévelppement de l internet mbile, Internet à la maisn et dans les bjets. prductin, structuratin des dnnées : XML (accès en prfndeur dans un dcument), web sémantique Grandes tendances des usages : le mléculaire évlutin des technlgies de l infrmatin vers l infiniment petit : «granularité de l infrmatin» ; ex du XML (accès à une partie du dcument) la persnnalisatin des services, des applicatins : «mnservicepublic.cm» en curs d élabratin ; «mnyah.cm» ; Plate-frme d autfrmatin EVA du CNERTA le travail cpératif puissance de calcul partagé, travail en réseau La mbilité Prblèmatique de l internet AAA (Anyne, anytime, Anywhere) ; ére de l intercnnexin généralisée. La transparence des techniques Disséminatin d internet et de l infrmatique dans les appareils, la maisn, les vétements dévelppement de la Dmtique. 31