NAHRGANG Marco DELHOMME David LES MOTEURS DE RECHERCHE, COMMENT CA MARCHE?



Documents pareils
Evaluation et analyse de la fréquentation d un site

Réussir. son. référencement. web. Olivier Andrieu. Groupe Eyrolles, 2008, ISBN :

16 septembre Lundi de l Economie l. rencement. Foix. CCI Ariège

En quoi consiste le REFERENCEMENT de votre site?

Formation à la recherche documentaire sur le web

demander pourquoi mon site n'apparaît pas sur google ou pourquoi mon site n'est pas référencé par les moteurs de recherche?

Le référencement naturel

SOMMAIRE. 1. Comprendre les bases - référencement, indexation et positionnement - comment fonctionne Google pour indexer et référencer un site?

GUIDE PRATIQUE DU REFERENCEMENT NATUREL

Référencement et visibilité sur Internet Comment améliorer la visibilité de son site internet sur les principaux moteurs de recherche?

Référencement de votre site Web Google et autres moteurs de recherche (4ième édition)

LE REFERENCEMENT NATUREL D UN SITE WEB1

Référencement Vendredi 4 Juillet Ile Degaby

Introduction. M2206 Intégration web. Introduction. Introduction 20/01/2014

Le référencement de mon site

Référencement naturel

Référencement naturel & E-tourisme. Pau 02/10/2008

COMMENT AMÉLIORER LA VISIBILITÉ DE SON SITE WEB?

DUT GEA. Informatique D après le document de Laurent GILI / Lycée Prévert


Guide et conseils généraux pour optimiser le référencement d un site internet

Les modes de recherche sur le Web 2.0

Pourquoi une stratégie de sites dédiés? Laurent-Pierre GILLIARD AEC 14/06/2007 Vincent MOREAU SYSTONIC 09/06/2006

COMMENT AMELIORER LA VISIBILITE DE SON SITE WEB?

Ecole Préparatoire SNV Université d Oran Semestre /2015 Matière : Travaux d Initiative Personnelle Encadrés (TIPE) Prof. M. Z.

Jeudi 30 avril L art de bien référencer son site Internet

Manuel de SQUIRRELMAIL à l'usage des étudiants.

Guide de création de site web optimisé

Optimiser son référencement naturel avec e-majine

MEDIAplus elearning. version 6.6

COMMENT OPTIMISER SON RÉFÉRENCEMENT NATUREL?

Optimiser le référencement naturel de son site web

Ou comment devenir visible sur la toile

Référencement Naturel ou SEO Search Engine Optimization

PRODIGE V3. Manuel utilisateurs. Consultation des métadonnées

Atelier E-TOURISME Optimiser la visibilité de son site sur les moteurs de recherche. ecotourismepro.jimdo.com

CRÉER, ROUTER ET GÉRER UNE NEWSLETTER, UN ING

creer votre site internet en html/css

Référencement & Positionnement

FOIRE AUX QUESTIONS PAIEMENT PAR INTERNET. Nom de fichier : Monetico_Paiement_Foire_aux_Questions_v1.7 Numéro de version : 1.7 Date :

Recherche d'information dans Internet Introduction

Chapitre 3 : outil «Documents»

Comment réussir son référencement

WEBSEMINAIRE INTRODUCTION AU REFERENCEMENT

Partie II Approche théorique

PLAN DE CLASSIFICATION UNIFORME DES DOCUMENTS DU MSSS

Gestion de contenu d un site web avec TYPO3 Manuel de l administrateur

COMMENT OPTIMISER MA VISIBILITÉ SUR LE WEB? AMÉLIORER MON RÉFÉRENCEMENT

Survol des nouveautés

1. Introduction Création d'une requête...2

D UN BON REFERENCEMENT

Premiers pas sur e-lyco

INTERNET est un RESEAU D ORDINATEURS RELIES ENTRE EUX A L ECHELLE PLANETAIRE. Internet : interconnexion de réseaux (anglais : net = réseau)

Thème : Création, Hébergement et référencement d un site Web

Guide pratique du référencement de web consultant eu. Commençons par l optimisation de vos pages, ou on page

Chapitre 1 : Introduction aux bases de données

Formation Site Web. Menu du jour. Le web comment ça marche? Créer un site web Une solution proposée pour débuter La suite?

Est-il possible d'être sur la 1ère page de Google?

Langage HTML (2 partie) <HyperText Markup Language> <tv>lt La Salle Avignon BTS IRIS</tv>

10 points clés pour bien démarrer votre projet web

INU Information et sites Web 10 avril 2015 SEO. Dominic Forest, Ph.D.

Google fait alors son travail et vous propose une liste de plusieurs milliers de sites susceptibles de faire votre bonheur de consommateur.

Kaizen Marketing Group Web Agency. Kaizen Marketing. - Stéphanie Héline-

La campagne de netlinking ou comment améliorer son indice

Créer et partager des fichiers

1. Cliquez sur dans le coin supérieur gauche de l'écran 2. Sélectionnez la Langue de l'interface désirée 3. Cliquez sur

Introduction. Internet : Moteur de recherche : Google, Yahoo, Forum

C r é a t i o n D e S i t e s. P o l C R O V A T T O

en 16 différences

WordPress Référencement naturel (SEO) Optimiser. son référencement. Daniel Roch. Préface d Olivier Andrieu

FORMATION PcVue. Mise en œuvre de WEBVUE. Journées de formation au logiciel de supervision PcVue 8.1. Lieu : Lycée Pablo Neruda Saint Martin d hères

REFERENCEMENT NATUREL

La recherche d'information sur Internet

Chapitre 2 Créer son site et ses pages avec Google Site

Principes d AdWords. Quelques mots de présentation. Une audience large : les réseaux de ciblage. Réseau de recherche

Campagne de Communication Prévisionnelle. Web Intelligence & Réputation Internet

Eurateach labellisé par la région et le FAFIEC. Si vous remplissez les conditions suivantes : Votre entreprise compte moins de 250 salariés

Répondre à un courrier - Transférer un courrier 20

Création d'un site dynamique en PHP avec Dreamweaver et MySQL

1. Pourquoi? Les avantages d un bon référencement

Freeway 7. Nouvelles fonctionnalités

«Un site non référencé est un site qui n existe pas» «Faire un site c est bien, mais s il n apparaît pas en première page, ca ne sert à rien!

Cyberclasse L'interface web pas à pas

1. Installation du Module

Optimisez vos contenus. Guide pour des éditeurs de sites web

AIDE ENTREPRISE SIS-ePP Plateforme de dématérialisation des marchés publics

Nécessité de concevoir un outil de recherche PDF Présentation des fonctionnalités d'indexation et de recherche... 3

SEO On-page. Avez-vous mis toutes les chances de votre côté pour le référencement de votre site?

Caruso33 : une association à votre service

Organiser le disque dur Dossiers Fichiers

SEO & WordPress. Neil McCarthy GOODNESS CONSEIL EN WEBMARKETING & RÉFÉRENCEMENT. Bâtiment Enerpôle Technopôle Izarbel BIDART

Qu est ce que le référencement web?

Publier dans la Base Documentaire

I.1 Introduction. I.2 La recherche d information. I.2.1 Définitions

Transcription:

NAHRGANG Marco DELHOMME David LES MOTEURS DE RECHERCHE, COMMENT CA MARCHE? Sujet bibliographique DESS IIR Réseaux 2003-2004

SOMMAIRE Introduction A/ Présentation I/ Qu'est-ce qu'un Moteur de Recherche? II/ Utilité et Utilisation courante B/ Fonctionnement des Moteurs de Recherche I/ Indexation des pages Internet 1/ Principe 2/ Rafraichissement II/ Critères de pertinence III/ Facteurs bloquants IV/ Les Méta-Moteurs V/ Un exemple de Moteur: GOOGLE 1/Présentation 2/Mode de fonctionnement: Indexation 3/Mode de fonctionnement: Recherche C/ Différences entre Moteurs de Recherche et Annuaires D/ Moyens de contournement Conclusion Bibliographie 2

INTRODUCTION Depuis l'apparition de l'internet, jusqu'à son avènement dans chaque foyer, l'évolution du contenu des sites qui y sont proposés a été exponentielle en terme de quantité ainsi que de diversité. Il est donc devenu nécessaire, pour garantir aux utilisateurs lamda un accès simple et efficace à cette immense quantité d' informations, de pouvoir indexer ces mêmes informations. A ce point ont donc été créés, et représentant à ce jour les pages les plus utilisées sur Internet, les Annuaires de sites web et les Moteurs de Recherche, le fonctionnement de ces derniers faisant l' objet de cette étude bibliographique. 3

A/ PRÉSENTATION I/ Qu'est-ce qu'un Moteur de Recherche? Un Moteur de Recherche d' informations sur Internet est un outil permettant à un utilisateur, aussi bien novice que très expérimenté, d'accéder de manière simplifiée à des données dont la localisation lui est inconnue, ou dont les différentes parties sont disséminées sur le web. Ceci est réalisable par la simple opération qui consiste à donner au Moteur les mots importants concernant le sujet des informations recherchées, dits mots-clés, ou la description même du document recherché, et ce Moteur a pour effet de retourner comme résultat de ses recherches la liste de toutes les pages web relatives à ces mots-clés, ou bien celles correspondant à la description passée en paramètre. II/ Utilité et Utilisation courante Internet s'étant développé au point de pouvoir remplacer les moyens de communication et d' information courants, grâce notemment à l' apparition de quotidiens On-Line, il est devenu un pan important de la société de consommation. Il est donc devenu primordial de donner à tous, consommateurs ou fournisseurs, la possibilité de mettre ses ressources en commun et d'y acéder. Dans ce but, les Moteurs de Recherche possèdent deux fonctionnalités principales, opposées mais complémentaires: le référencement des sites web, qui permet la fourniture d' informations par les sociétés de services ainsi que les webmasters privés. Cette opération peut être motivée par deux objectifs: la mise à disposition ciblée de données réclamées par des consommateurs particuliers: utilisation à but informatif, tels les journaux Online, à l'origine de la création des Moteurs de Recherche; la diffusion non sollcitée de données imposées aux utilisateurs d' un Moteur: utilisation à but publicitaire, qui est mise en oeuvre grâce à un détournement des critères étudiés par ces Moteurs, phénomène qui sera étudié plus loin; la recherche des informations par les internautes, qui est elle motivée par un seul objectif: trouver le plus rapidement et avec une pertinence maximale les données voulues. On observe depuis deux ans l' émergence et la suprématie d' un Moteur en particulier, GOOGLE: des récents sondages auprès de milliers d' utilisateurs de Moteurs prouvent que plus de 90% des gens utilisent Google plus que tout autre Moteur de Recherche. Cette domination est dûe en partie à la possibilité pour les utilisateurs de s'en servir dans leur langue matenelle, ce qui est, au niveau de l'implantation en Asie, primordial. 4

B/ FONCTIONNEMENT DES MOTEURS DE RECHERCHE I/ Indexation des pages Internet 1/ Principe Un moteur de recherche est une immense base de données qui indexe des pages web: ce travail est effectué un robot logiciel, contitué de trois modules, qui agissent chacun individuellement. Les trois étapes conduisant à l' indexation des pages web par un Moteur de recherche sont les suivantes: en premier lieu l' exploration de sites et la recherche des informations, effectuées par le module de collecte dit «spider», «crawler», «worm», voire encore tout simplement «search engine». Cette opération consiste à procéder à une scrutation à fréquence régulière des serveurs web. A partir d' un ensemble donné de pages initiales, le crawler explore les réseaux de liens hypertextes et parcourt les différentes ressources ( sites web, forums, etc...), qui constituent ce qui est communément appelé le «web visible». Ce dernier est en fait la partie du web qui peut réellement être indexée par les Moteurs de Recherche, et qui comprend seulement 1/500ième des documents accessibles sur le web. Les caractéristiques principales des spiders sont: les formats de documents qui peuvent être pris en compte (.pdf?,.doc?,.xls?...); la profondeur des sites atteinte (au sens hiérarchie des liens); Ensuite l' indexation des sites: le module d' indexation construit un index général de recherche, i.e un index du code source HTML des pages web, organisé par rapport à des champs spécifiques tels le titre du document, l' URL à laquelle il est accessible, les liens pointant sur cette page, les Meta-données décrivant le document ou bien ses premiers paragraphes. Cet index constitue la Base de Données réelle du Moteur de Recherche, il contient un index principal, qui liste les milliards de pages capturées par le crawler, ainsi qu'un index de fichiers inverses, contenant les termes d'accès aux pages web, comme les mots-clés et les descriptions textuelles des documents indexés. 5

Cette indexation peut s'effectuer selon trois modes: l'analyse morphologique, consistant à scanner de simples mots avec une gestion limitée de la casse et des mots vides (suppression); l'analyse lexicale ou lemmatisation, très peu utilisée, qui revient à ramener les mots trouvés à leur racine (ie les verbes conjugués à l'infinitif, les noms au singulier...); l'analyse syntaxique, soit l'analyse des expressions complètes, mais ce type de classification est encore très marginal et le plus souvent appliqué aux formulaires servant à la recherche dans la base de données. Enfin la recherche de pages, dernière application, destinée aux utilisateurs des Moteurs. Le module de recherche est constitué d' une interface de requête par mots-clés, qui s' apparente à un simple formulaire de saisie. Il est destiné à apparier les éléments contenus dans la base de données du Moteur de Recherche avec les termes de la requête et à afficher les titres ou les URL correspondants aux pages coïncidantes. On représente par le schéma suivant la vie d'une requête: passage de la requête, ou «query», aux Index Servers, sortes de tables des matières des mots-clés; repérage des documents cibles correspondants, et création de «snippets», qui sont de courtes descriptions de ces documents; retour des résultats à l'utilisateur en quelques secondes. 6

Ce module est caractérisé par : sa syntaxe d' interrogation; son type de sélection des ressources pertinentes dans l' index; son type de classement des résultats. Un Moteur de Recherche complet présente une syntaxe d' interrogation divisée en deux parties: syntaxe simple: l' utilisateur peu aguérri ne saisit que des mots indépendants: la recherche pourra donner des résultats aussi bien sur un seul que sur tous ces mots, d'où un manque possible de cohésion entre la requête et la réponse; syntaxe complexe: des opérateurs sont mis à la disposition des utilisateurs avertis, tels que la possibilité de saisir une expression entière grâce aux. Les opérateurs booléens classiques sont aussi présents: le «+» permet la recherche de tous les termes saisis dans l' ordre ou non, le «-» permet d' exclure les pages contenant le terme qui le suit imédiatemment, le «OR» permet lui de rechercher les pages web qui correspondent à l'un des termes reclamés seulement. De plus en plus de formats de fichiers sont pris en compte dans ces index,notament les fichiers PDF et ceux de la suite Microsoft Office (Word, Excel, PowerPoint...) mais de nombreuses sources d' information font toujours partie du web invisible: les pages liées à un site mais à une trop grande profondeur: le Moteur ne va pas les examiner afin d'éviter les boucles au sein d' un même site; les pages web non liées à un site d'accueil; les pages dynamiques; les pages à accès réservé; les pages récentes qui resterons non indexées jusqu'à la prochaine scrutation du web par le Moteur; les bases de données classiques consultables sur le web; les documents aux formats de description d'images (jpeg, gif); les documents sonores type MP3. On sait de plus qu' actuellement, le plus performant des Moteurs, soit Google, n'indexe lui-même que 54% du web visible. 7

2/ Rafraichissement La quantité de données mises à disposition des internautes augmentant sans cesse, et des pages web repértoriées devenant obsolètes tous les jours, les Moteurs de Recherche ont comme premier impératif de réétablir leur base d' indexation selon des délais plus ou moins courts: c'est ce qu'on appelle le rafraichissement des index. Leurs méthodes de rafraichissement sont composées de plusieurs étapes: une mise à jour complète de leur base de données: les Moteurs renouvellent leur scrutation du web à une fréquence prédéfinie pour chacun d' eux: Présentation AltaVista Alltheweb Lycos Google Taille de l'index 1,1 milliards de pages 2,5 milliards de pages 2,5 milliards de pages 3,3 milliards de pages Rafraichissement 4 semaines 2 à 3 semaines 2 à 3 semaines 4 semaines Spider Scooter Fast Fast Googlebot soit des mises à jour partielles de leur base d' indexation, qui ont lieu tous les jours ou tous les deux jours (Google rafraichit sa base d'indexation partiellement tous les jours); 8

II/ Critères de pertinence On peut constater en effectuant une recherche documentaire avec des mots-clés identiques sur plusieurs Moteurs de Recherche que les résultats présentés sont très fréquemment différents en terme de pages affichées, ou même trouvées. La cause de ces différences est la classification de ces résultats suivant des critères de pertinence qui constituent la moelle épinière d' un Moteur de Recherche, du point de vue de l'interface utilisateurs. Ces critères définissent en effet l' algorithme même du module de recherche, qui procèdera à sa scrutation dans la Base de données en fonction des priorités affectées à chacun des critères. Le choix de ces priorités est primordial pour le concepteur du Moteur de Recherche dans le sens ou cette décision donnera l' orientation générale de cet outil: il sera en conséquence performant à divers niveaux: soit l' efficacité: rapidité de réponse privilégiée; soit la pertinence: mise en avant de la qualité des pages proposées comme résultat (correspondance maximisée entre la requête et le contenu des documents); soit encore la quantité: le nombre de réponses est poussé au maximum, ce qui équivaut à une recherche plus profonde sur les sites cibles. Les critères de pertinence le plus généralement utilisés sont de diverses natures: l' indice de pertinence: certains Moteurs prennent en compte seulement la présence des motsclés contenus dans la requête, que ce soit dans le titre du document, son entête, son contenu texte voire sa description générale, d' autres procèdent à une scrutation plus poussée prennant également en considération le nombre d'occurrences ou la position de ces mots-clés dans ce même document; l' indice de popularité: le Moteur prend en compte la «popularité» du site hébergeant le document, popularité définie par le nombre de liens pointant vers ce site, ainsi que par la popularité même des sites proposant ces liens. La superposition de ces critères de pertinence donne donc une idée globale du mode de sélection effectué par le Moteur de Recherche dans sa base de données des pages correspondant aux requêtes des utilisateurs du module de recherche. Toutefois, aussi bien décrites ou populaires soient-elles, les Moteurs peuvent parfois ne pas pouvoir indexer certaines pages web, des facteurs dits bloquants provoquant des incompréhensions du code source de ces documents par le Spider. 9

III/ Facteurs bloquants Certains éléments faisant partie d' un document HTML peuvent gêner voire empêcher la bonne indexation de la page web concernée: ils sont dits «facteurs bloquants». Ces incompatibilités peuvent être générées par des éléments appartenant à deux catégories, c'est à dire qu'ils portent soit sur le contenu même du document, soit, et c'est le cas la plupart du temps, sur la forme sous laquelle est présentée ce document. Il a déjà été fait état plus haut des difficultés rencontrées par les engins de recherche dans l' optique d 'indexer tous les documents mis à disposition des utilisateurs sur le web,. Ceci est dit dans le sens où une page pourrait être décrite et donc indexée d' une manière incomplète, et donc insuffisante lorsque l' on passe une requête ciblée sur des documents non accessibles au spider: cette page n'apparaitrait en effet pas dans les résultats affichés par le module de recherche, cela en dépit d'une pertinence sans doute importante. Les facteurs bloquants portant sur la définition même de la page web se rencontrent lorsque l' accès cette la page n'est pas possible pour le spider. Ils sont généralement dûs aux URL non conventionnelles, pouvant être de deux types: l' URL du document contient des caractères peu fréquemment utilisés pour cela, comme les points d' interrogation, les signes d' égalité, les «&», etc... l' accès à la page web se fait par une redirection définie sur une tierce page: le document est donc considéré comme une page non liée, qui ne peut par conséquent pas être atteinte par le spider. La majorité des entraves rencontrées par les Moteurs de Recherche dans leur tâche d'indexation du web sont d' un autre ordre: elles sont dûes à des codes sources non compréhensibles pour le spider: l 'utilisation des frames (cadres statiques dans une fenêtre) n'est pas prise en compte par la plupart des Moteurs: la page ne sera référencée que dans le cas où son créateur a prévu de mettre en place une description spécifique à leur intention, en utilisant l' opérateur par défaut «noframe»; le codage des pages web grâce aux technologies type Flash, qui est un langage permettant la définition de documents dynamiques, peut souvent empêcher la bonne saisie du descriptif à indexer dans la base de données du Moteur; les images faisant partie d' une page HTML ne seront pas référencées comme des informations indexables si l' usage de la balise «alt» contenant une description n'est pas fait; l'utilisation dans les langages de script de fonctions de type «roll-over», qui rendent les pages dynamiques devient également un cas de mauvaise indexation de pages web. 10

IV/ Les Méta-Moteurs Il a été mentionné plus haut dans ce rapport la très importante diversité des résultats qu'un utilisateur, expérimenté ou non, peut obtenir à partir de la même requête posée aux formulaires des Moteurs de Recherche existants. Dans l'optique de permettre aux utilisateurs d' effectuer des recherches plus poussées, tant au niveau de la quantité des résultats qu'au niveau de leur qualité, et afin de simplifier cette opération, ont été créés ce qu' on appelle les Méta-Moteurs. En effet, jusque-là, un utilisateur voulant procéder à une recherche sur plusieurs Moteurs devait, afin de pouvoir la mener correctement, savoir maîtiser le langage de requête de chacun de ces Moteurs, qui bien entendu n' ont aucune raison d' être standardisés, sauf pour le confort de l' utilisateur, bien entendu. Ces Méta-Moteurs sont des engins de recherche qui se situent à un degré supérieur à celui des Moteurs traditionnels, d' où leur nom de «Méta», qui vient du grec «meta», signifiant «au-delà de, à côté de, après». Leur mode de fonctionnement,au niveau de ce que perçoit l' utilisateur, est assez proche de celui d 'un Moteur de Recherche classique: après soumission de la requête au formulaire, celle-ci est tramsmise simultanément à plusieurs Moteurs individuels. Les résultats retournés sont ceux de tous les engins contactés. Il faut mentionner le fait qu' un Méta-Moteur ne possède aucune base de données de pages web qui lui soit propre:il cherche dand celles des autres. L' idée d'utiliser ces Moteurs «supérieurs», si l' on peut dire, semble séduisante à priori par son côté pratique, dans le sens où il devient inutile d' apprendre les syntaxes d'interrogation des différents Moteurs existants, mais il ne faut pas oublier un fait essentiel: ils ne peuvent en aucun cas être meilleurs que les bases de données dans lesquelles ils cherchent, et sont donc eux aussi limités par les mêmes défauts. Les Méta-Moteurs actuels peuvent être classifiés en trois catégories: les outils permettant de sérieuses recherches, ayant de puissantes capacités à trouver ce que l' utilisateur désire au sein des résultats proposés. Ils sont appropriés aux recherches en profondeur sur un sujet précis. Les engins appartenant à cette catégorie sont SurfWax et Copernic Agent: ils permettent de choisir les Moteurs classiques auxquels faire appel, possèdent eux-mêmes des syntaxes d' interrogation complètes, et laissent le choix du mode d' affichage des résultats; les Méta-Moteurs de bon niveau, acceptant les requêtes complexes, éliminant les doublons et pouvant organiser les réponses par degré de pertinence ou par sujet (clustering, en anglais). On classe généralement Vivisimo et Ixquick dans cette catégorie: ils transmettent les requêtes aux meilleurs Moteurs du marché, soit Alltheweb, MSN et Google entre autres, et permettent la translation des requêtes complexes en traduisant celles-ci dans la syntaxe d'interrogation des Moteurs cibles; les engins de plus basse qualité qui ne font que rechercher les termes de la requête dans les bases de données des Moteurs sous-traitants. Ils ne permettent pas de transmettre les requêtes complexes comportant des opérateurs tels que les, ou les booléens, et n'utilisent pas toujours les bons Moteurs du marché, comme Google principalement. Il s'avère donc souvent plus intérressant d' apprendre la syntaxe d' un Moteur classique plutôt que d' utiliser un Méta-Moteur de cette catégorie. 11

V/ Un exemple de Moteur: GOOGLE 1/Présentation Actuellement, Google est sans conteste le Moteur de Recherche le plus utilisé par les internautes amateurs, ceci principalement à cause de deux facteurs: premièrement, cette domination est dûe à la possibilité pour les utilisateurs de s'en servir dans leur langue matenelle; deuxièmement, elle est dûe à l'efficacité de ce Moteur de Recherche de la nouvelle génération. Google est né en 1998 d'un projet de Sergey Brin et Lawrence Page, étudiants en Doctorat (Ph.D.) de l'université de Stanford, qui voulaient créer un Moteur de Recherche permettant d'obtenir de meilleurs résultats que les engins de Recherche existants. Ils partirent pour cela d' une simple constatation: les Moteurs existants ne présentaient souvent aucun résultat utilisable dans la première page d' affichage qu' ils proposaient lors d'une recherche, alors qu' on observe courramment que les utilisateurs lamda ne vont que très rarement au delà des dix premiers résultats. Afin de se donner les moyens d' obtenir mieux, ils ont donc perfectionné les techniques existantes: en effet, les Moteurs de Recherche de ce temps utilisaient seulement des index pour leur fonctionnement, tandis que Google utilise plusieurs technniques. 2/Mode de fonctionnement: Indexation Le fonctionnement de Google, au niveau technologique, se décopose en plusieurs étapes, chacune étant effectuée par un module spécifique. Le premier module, appelé «URL Server», se charge de transmettre les URL, ou désignations des pages, à examiner aux robots indexeurs, les «crawlers». Chacun de ces crawlers possède environ 300 connexions, et comprend de plus son propre serveur DNS dans un cache, ceci dans le but d' éviter un nombre de requêtes DNS qui pourrait devenir trop encombrant au niveau des calculs à effectuer par ces robots. Une fois les documents téléchargés, le «Store Server», ou serveur de rangement, en conserve une sauvegarde, par l' intermédiaire du logiciel zlib, plus performant dans ce genre d'exercice que son homologue bzip, car plus rapide bien que moins puissant au niveau du taux de compression. Chaque document visité est donc ainsi sauvegardé par ses identifiants: son DocId, qui est une sorte d' identifiant unique au sens base de données attribué à ce document, sa taille, son URL et une description de son contenu. Viennent ensuite les tours des modules nommés «Indexer» et «Sorter», ou indexeur et trieur. 12

L'Indexer insère tous les mots trouvés au sein des documents dans des «Barrels», ou fûts, en les accompagnant de leur nombre d'occurrences dans chaque page, ainsi que des positions respectives de ces occurrences et la taille des documents. Ces Informations sont sauvegardées dans les «Hit Lists» et dans le «Forward Index». Cet index contient le DocId, le WordId, le nombre d'occurrences et les occurrences trouvées, aussi appelés «Hits». Pour les Hits, on distingue les diverses catégories de similarités trouvées, que ce soient les ancres: «Anchor Hit», les occurrences dans l' URL, le titre et les informations Meta: «Fancy Hit» et tous les autres occurrences: «Plain Hit». Le Sorter entre alors en action, son rôle consistant à transformer le «Forward Index», qui est trié en fonction du DocId, en «Inverted Index» ou les informations seront triées par le WordId. fig ACodage des informations indexés 13

Une ancre est constituée du DocId du document source, c'est à dire celui où le lien a été découvert, du DocId du document destination, i.e. celui vers lequel il pointe, ainsi que du contenu texte du lien affiché. Ce contenu est la partie visible du lien lors de la consultation du document sur le web, c'est la «partie cliquable». 14 fig B: Schéma de fonctionnement général de GOOGLE 14

Ces ancres sont ensuite traitées par le module dit «URL Resolver», qui a en charge de convertir les URL relatives, que l'on qualifiera de tronquées, car elles ne désignent que des chemins locaux aux serveurs hébergeant les documents, en URL absolues, c'est à dire que l'on peut atteindre de n'importe où. Les URL classiques ainsi obtenues sont elles-mêmes converties en DocId, qui seront sauvegardés en compagnie du texte des liens correspondants, afin de ne conserver comme points d'accès aux pages web indexées que des chemins utilisables par tous. Cette sauvegarde est effectuée dans les Barrels, alors que simultanément, on conserve pour chacun de ces liens une copie des DocId source et destination, afin de pouvoir par la suite calculer la popularité de ces pages, que l'on nomme courramment «PageRank». suivante: Dans le but de calculer le Pagerank d'un document, on utilise la formule PR(A) = (1-d) + d(pr(ti)/c(t1) +...+PR(Tn)/C(Tn)), où les Ti représentent les documents pointant sur le document A cible. C(Ti) est ici le nombre de liens de chaque document Ti. d est le «damping factor»: c'est un nombre compris entre 0 est 1, représentant la propabilité que le document puisse être trouvé «ennuyeux» par l'utilisateur. Il est généralement constant, pris égal à 0.85. Les informations détenues sur chacun des documents (docid, URL, et titre, ainsi qu'une description si le document a été téléchargé), venant de l'indexer et de l'url Resolver sont à leur tour sauvegardées dans le «Doc Index». Les informations contenues dans les barrels sont triées par leur DocID quand elles proviennent de l'indexer ou de l'url Resolver, alors que le Sorter les trie lui par les wordid, qui n'est en fait qu'un simple lexique construit au fur et à mesure des recherches. A la fin du processus d'indexation, le Moteur possède les informations relatives au pagerank, à l'index des documents, le lexique (lexicon), les ancres, et les informations contenues dans les barrels. Toutes ces indications serviront à la dernière et plus ostensible partie du travail d' un Moteur: la recherche proprement dite. 15

3/Mode de fonctionnement: Recherche Le mode de recherche de Google est semblable à celui de la majorité des bases de données: les mots d'une requête sont cherchés dans l'index et confrontés avec les wordid, c'est à dire que le module de recherche effectue ici une sorte de comparaison lexicale. Google arrête sa recherche s'il a obtenu 40.000 documents, le résultat étant alors non-optimal. Les résultats obtenus, que l'on définira comme les listes des mots-clés reconnus le plus souvent, sont comparés en fonction des divers paramètres: la valeur du nombre d'occurences des mots trouvés dans la base d' indexation; les positions de ces mots-clés dans le document, afin de déterminer s'ils font partie de la description de la page elle-même ou bien de son contenu; la distance entre les mots-clés découverts au sein d'un document: ce critère permet de savoir si une expression recherchée est présente ou non, les mots la composant pouvant être présents mais répartis individuellement tout au long de la page; enfin est pris en compte le type des mots : leur importance variera en fonction du fait qu'ils soient une ancre, un titre de document, ou headline, ou bien encore simplement du contenu texte normal... Enfin le résultat final de la recherche sera ordonné en fonction d'un dernier paramètre, la popularité de chaque page web. Plus le pagerank est haut, plus le site sera considéré par Google comme présentant de l'intérêt, et il sera en conséquence proposé dans les premiers choix de réponses. Ce phénomène aura comme effet d' inciter les internautes à consulter ces pages, affichées comme les meilleurs résultats, car on constate en effet que d' une manière générale, les utilisateurs lambda d'un Moteur de recherche n'iront que très exceptionellement au-delà des dix premiers résultats, d'où la lutte incessante entre les divers sites couvrant des thèmes similaires. 16

C/ Différences entre Moteurs de Recherche et Annuaires Dans le secteur de la recherche sur Internet, on distingue deux types d' interfaces: les Moteurs de recherche et les Répertoires Thématiques, aussi dits Annuaires. Ils se différencient par plusieurs aspects allant de leur mode d 'indexation des documents disponibles sur le web jusqu'à leur style d' utilisation par leurs clients. Type de Recherche Alimentation des bases de données Types d'engins Déroulement des recherches Affichage des résultats Moteurs de Recherche Recherche par interrogation pour une recherche pointue Par des robots logiciels qui scrutent les pages web et les emmagasinent Ils constituent des index ou bases de données Moteurs ou métamoteurs Langues indifférentes Requête par mots-clés Recherche transparente Mots-clés en gras suivis d'une description de la page web correspondante Répertoires Thématiques Recherche par navigation pour une recherche générale Par des êtres humains qui organisent les sites visités en répertoires Ces experts classent les sites en diverses catégories Généraux ou spécialisés Une langue par répertoire Sélection par thèmes Liste de liens de sites Identique à une table des matières dans un livre 17

D/ Moyens de contournement Le référencement des sites Internet est de nos jours à l' évidence devenu un véritable enjeu économique, que ce soit dans le secteur de l' informatique ou non. Les Webmasters privés ont donc mis au point de nombreuses méthodes afin d'obtenir d' excellents classements dans chaque recherche, y compris celles n'ayant aucun rapport avec les thèmes abordés dans leurs pages. Ces techniques sont bien sûr pratiquées dans le but ostensible de promouvoir au maximum leurs sites, souvent au détriment du libre arbitre de l'utilisateur. En effet, à combien d' utilisateurs, dirons-nous sérieux, est-il arrivé de rechercher des sujets légitimes sur le web, et d' obtenir des résultats apparamment conformes à leurs attentes, celà pour finalement se retrouver, une fois les pages consultées, sur un site à caractère commercial, ayant des activités plus ou moins avouables? Les divers concepteurs de Moteurs de Recherche tentent bien évidemment continuellement d'érradiquer ces pratiques, afin d' augmenter la crédibilité de leurs produits: ne sont-ils pas en effet les premiers accusés en cas de «dysfonctionnement»? Nous présentons ici une liste, bien entendu non exhausive, des méthodes actuelles de contournement des critères de pertinence testés par les engins de recherche: Une des pratiques les plus simples, et donc les plus employées par les «tricheurs» novices, consiste à insérer dans une page HTML des mots codés de la même couleur que le fond du document, afin de les rendre invisibles lors de la consultation de celui-ci. En insérant de cette façon des mots-clés très généraux souvent recherchés par les internautes, on obtient aisément un assez bon classement dans tous types de requêtes, concernant les sujets traités soit par le document lui-même, soit par les mots-clés infiltrés. D' une autre manière, on peut faire référencer une page contenant des thèmes très généraux, donc avec un fort potentiel pour être sollicités, et appliquer au moment du chargement de la page une redirection vers un autre site, complètement indépendant, et présentant lui les informations ou services que le webmaster désire communiquer/vendre aux visiteurs. Une autre méthode pour référencer un site n'ayant pas de rapport avec les mots-clés ou les descriptions attachés consiste à tenir à jour deux sites web simultanément, voire plus, et à faire indexer une page que nous dirons «leurre», qui contient suffisamment de thèmes interressants pour un important potentiel d' internautes. Dès la fin de l' indexation de ce leurre, on échange les URL des deux sites afin que les ancres conservées par le Moteur de Recherche sur le leurre puisse permettre d'afficher le site cible à l'insu des internautes, ainsi que des concepteurs du Moteur. De la même façon, un webmaster mal intentionné peut tenir plusieurs sites à caractères complètement différents, et créer un barrage à l' affichage, qui lui permettra de servir différentes pages web à ses clients, cela à partir de la même URL, et en fonction de leur adresse IP personnelle. 18

Une technique très simple afin de s'assurer d' un bon référencement par les Moteurs de Recherche est de pouvoir insérer des liens pointant sur son propre site dans les guestbooks des pages web possédant un haut pagerank, c'est à dire des sites très fréquemment referencés. En effet, ceux-ci auront donc une grande chance d' attirer des internautes sur les pages incluses, peu importe leur rapport avec les sujets mentionnés lors de leur description. Une méthode connue sous le nom de «Google Bombing» tient dans le simple principe suivant: on place beaucoup de liens sur le même site en utilisant le texte voulu, qui n'est bien entendu pas toujours en rapport avec le contenu réel du document en question. Le nombre important de liens partant et arrivant sur cette page va donc permettre de booster sa popularité et donc d'augmenter sensiblement son classement dans les résultats des recherches sollicitées sur les Moteurs, ceux-ci étant de plus en plus enclins à utiliser cette popularité comme un critère de pertinence décisif pour une page web. Enfin, et non des moindres, la méthode dite des réseaux de sites. Elle consiste à améliorer son pagerank par le biais d'un réseau de sites contenant chacun des hyperliens pointant vers tous les autres. On assiste actuellement à une recrudescence de ce genre de «tricherie», jusqu'au point où des sites sont dédiés à l'amélioration artificielle de la popularité des pages web. Ainsi le site «links-trafic.com» est-il présenté comme un simple outil d'augmentation facile du pagerank des participants: links-trafic.com l' annuaire de liens qui va multiplier vos visites! Suivent ensuite clairement les étapes découlant sur le gonflage artificiel de la popularité des sites, qui s' opère par les visites successives des nouveaux sites adhérants, qui doivent, dans le but d' être reçus, visiter et commenter les pages référencées. Cette opération provoque bien évidemment, au niveau des engins de recherche, une impression d'importance du site qui n'est que factice, mais bel et bien prise en compte dans le calcul de leur pagerank, d'où l'amélioration de classement recherchée. 19

Conclusion En définitive, nous pouvons tirer plusieurs enseignements de cette présentation non exhaustive du fonctionnement type des Moteurs de Recherche. Tout d'abord, ils sont devenus de nos jours incontestablement nécessaires à tout usage pratique d' Internet, car c'est notamment grâce à leur concours que l'on peut consulter des documents dont nous ne connaissons pas les adresses. Ils permettent de ce fait d'ouvrir l'accès au web à une multitude d' utilisateurs occasionnels: en effet, sans ces engins, ils n'auraient pas la possibilité d'atteindre les documents qu'ils recherchent, et dont souvent ils ne connaissent ni le contenu, ni la provenance. Ensuite, le référencement des sites web est devenu également primordial au niveau économique: c'est un important facteur de publicité et donc de développement aisé pour les sociétés présentes sur Internet. Ce processus ne serait bien entendu pas possible sans la présence et les performances grandissantes des Moteurs de Recherche, qui de ce fait sont considérés aujourd' hui comme des acteurs influents sur le marché économique mondial. Enfin, et en contrepartie, il est également de plus en plus fréquent de la part des webmasters, obéissant à la loi de la rude concurrence économique, de vouloir contourner les moyens de contrôle des Moteurs de Recherche en matière de référencement Internet. La conséquence principale de cet état de fait est de fragiliser le secteur du référencement, ceci ayant comme contrebalancement de permettre une continuelle mise à jour des techniques de vérification utilisables. Le secteur de l'indexation Internet évolue donc ainsi grâce au contexte économique général, au même type que tous les autres: c'est une activité continuellement en évolution, destinée à perdurer.