De l Encyclopédie aux moteurs de recherche



Documents pareils
La recherche d'information sur Internet

L introduction à la thèse

SEO On-page. Avez-vous mis toutes les chances de votre côté pour le référencement de votre site?

Introduction. M2206 Intégration web. Introduction. Introduction 20/01/2014

Référencement et visibilité sur Internet Comment améliorer la visibilité de son site internet sur les principaux moteurs de recherche?

Initiation à la recherche documentaire LA RECHERCHE SUR INTERNET

Principes d AdWords. Quelques mots de présentation. Une audience large : les réseaux de ciblage. Réseau de recherche

LES MOTEURS DE RECHERCHE SUR INTERNET

Bibliothèque Esparron en livres.

D UN BON REFERENCEMENT

COMMENT OPTIMISER SON RÉFÉRENCEMENT NATUREL?

demander pourquoi mon site n'apparaît pas sur google ou pourquoi mon site n'est pas référencé par les moteurs de recherche?

Référencement de votre site Web Google et autres moteurs de recherche (4ième édition)

Référencement naturel

Le référencement de mon site

Catalogue de formations

Kaizen Marketing Group Web Agency. Kaizen Marketing. - Stéphanie Héline-

Référencement Vendredi 4 Juillet Ile Degaby

Atelier E-TOURISME Optimiser la visibilité de son site sur les moteurs de recherche. ecotourismepro.jimdo.com

Evaluation et analyse de la fréquentation d un site

Eurateach labellisé par la région et le FAFIEC. Si vous remplissez les conditions suivantes : Votre entreprise compte moins de 250 salariés

Comment bien référencer mes sites internet? Les 100 SECRETS EN VIDÉO

Formations Web. Catalogue 2014 Internet Référencement Newsletter Réseaux sociaux Smartphone


Pourquoi une stratégie de sites dédiés? Laurent-Pierre GILLIARD AEC 14/06/2007 Vincent MOREAU SYSTONIC 09/06/2006

Tutoriel BLOGGER. Pour vous donner une idée, voici un exemple de blog :

AGENCE WEB 360 acteur du web depuis 8 ans en collaboration avec ses partenaires, déploie son. offre SEO

Ma première visibilité sur le Web. en 60 min avec des outils gratuits

Le référencement naturel

1. Pourquoi? Les avantages d un bon référencement

Faire de la publicité sur GOOGLE AD-WORDS

Internet et les médias sociaux

10 points clés pour bien démarrer votre projet web

Manuel d utilisation de mon.vie-publique.fr

Catalogue de formations JK Référencement

INTERNET. Etsup 2012

Guide et conseils généraux pour optimiser le référencement d un site internet

Cégep de Saint Laurent Direction des communications et Direction des ressources technologiques. Projet WebCSL : Guide de rédaction web

BIEN NAVIGUER SUR INTERNET. 2. Les moteurs de recherche. Ligue Libérale des Pensionnés asbl

Animation numérique. de territoire. Créer son site Internet avec un outil gratuit. Mardi 4 novembre Cédric ARNAULT OT Lourdes

Jeudi 30 avril L art de bien référencer son site Internet

Livre Blanc Virtua 2012

Réussir. son. référencement. web. Olivier Andrieu. Groupe Eyrolles, 2008, ISBN :

INTERNET, C'EST QUOI?

PRISE EN MAIN D UN TABLEUR. Version OPEN OFFICE

Création d'un questionnaire (sondage)

TUTORIEL Qualit Eval. Introduction :

Qu est ce que le référencement web?

Administration du site

Compte rendu Atelier de développement «Webmarketing» du 3 novembre 2008

Optimiser le référencement naturel de son site web

LES RESEAUX SOCIAUX MARDI 25 FEVRIER 2014

Réussir. son. référencement. web. Olivier Andrieu. Groupe Eyrolles, 2008, ISBN :

En 2010, on compte environ 1,65 milliard d utilisateurs d internet, Introduction

>> Le référencement payant. Qu est-ce que le référencement payant? La mise en relation directe avec les internautes qui vous recherchent

Être visible sur internet - Améliorez votre référencement

Web Science. Master 1 IFI. Andrea G. B. Tettamanzi. Université de Nice Sophia Antipolis Département Informatique andrea.tettamanzi@unice.

E-Commerce à Orthez E-Commerce : Se lancer - Générer des commandes - Se positionner : Explications et témoignages Orthez 15 mai 2008

Formation Découverte du Web

Dopez votre présence en ligne grâce aux Médias Sociaux

SOMMAIRE. 1. Comprendre les bases - référencement, indexation et positionnement - comment fonctionne Google pour indexer et référencer un site?

Ou comment devenir visible sur la toile

T le. Se documenter tout au long de l année. séquence pédagogique L1.2 L1.4 L2.2 L e trimestre. Nom :... Prénom :... Date :...

Campagne de Communication Prévisionnelle. Web Intelligence & Réputation Internet

ETRE VISIBLE SUR INTERNET. Search Engine Optimisation (SEO)

Les nouveaux sites documentaires de l IRD

Retrouver les informations demandées dans les différents rapports Utiliser les fonctionnalités des rapports Utiliser la segmentation avancée

Point 1/8. L accès authentifié à un portail e-sidoc. Janvier 2013 Documentation détaillée V2.2. Sommaire

CREG : versailles.fr/spip.php?article803

Guide de recherche documentaire à l usage des doctorants. Partie 1 : Exploiter les bases de données académiques

Créer une page Google+ Pro internet.com

«Les nouvelles technologies & les compétences numériques»

Offices de tourisme et bonnes pratiques Internet. Evaluation comparative de sites Internet

Cet ouvrage ne peut être utilisé que pour un usage privé uniquement. Vous n'avez pas le droit de l'offrir ni de le revendre sans accord des auteurs.

LES PHOTOGRAPHES ET LE REFERENCEMENT INTERNET..: Module 1 : Le référencement :. Bienvenue à tous!

Qu'est-ce qu'un moteur de recherche. Moteur de recherche sur Internet

Les Enjeux du Référencement de Sites Internet. Un livre blanc réalisé par Benchmark Group pour Netbooster

Point 3.7. Publier des contenus dans un portail e-sidoc. Janvier 2013 Documentation détaillée V 2.2

En quoi consiste le REFERENCEMENT de votre site?

Administration du site (Back Office)

PARTAGER UN ANNUAIRE COLLECTIF DE SIGNETS AVEC DEL.ICIO.US

Créer son site internet avec Jimdo. Web business

Connaissez-vous Google? Le 2 avril 2015

Référencement naturel & E-tourisme. Pau 02/10/2008

Fiche de l'awt Promotion d'un site web

Les clés du Search Marketing

Package Réseau Social RSV4

Soyez accessible. Manuel d utilisation du CMS

Académie Google AdWords. Lille le 19 janvier 2012

Ateliers de formation Internet. epub : netlinking et Adwords

Utilisation du client de messagerie Thunderbird

Un bonne analyse de statistiques = La voie du succès!

Dans la série. présentés par le site FRAMASOFT

Utilisation du site de retours Lexibook

20 techniques et bonnes pratiques d un positionnement visible gratuit et durable sur Internet

S informer et se développer avec internet

Formation à la recherche documentaire sur le web

D origine destiné à la conception de blog, WordPress est devenu l outil incontournable dans la liste des systèmes de gestion de contenus..

Transcription:

De l Encyclopédie aux moteurs de recherche Marie-Danièle CAMPION Recteur de l académie de Clermont-Ferrand La formation au numérique sur notre académie se fixe comme objectif de faire découvrir aux professeurs les aspects conceptuels du numérique. Il s agit de mieux faire percevoir le monde qui les entoure à nos élèves, en s appuyant sur les sciences du numérique. Après le premier texte diffusé à la rentrée 213 qui sensibilisait les professeurs aux questions liées au numérique, nous souhaitons enrichir les connaissances des personnels en ce qui concerne les moteurs de recherche en s attachant à décortiquer ici le principe de fonctionnement d un moteur de recherche. Que pourraient penser Diderot et d Alembert des moteurs de recherche fournissant des donnés dont l intérêt intellectuel n est pas toujours filtré? Ces savants du 18 e siècle s étaient donnés pour mission au sein d une société de gens de lettres de fournir en 28 volumes «l essentiel» de la culture en des temps où l école de la République n existait pas. Portrait par Van Loo de Denis Diderot 1713-1784 L Encyclopédie a certainement été quelque part créatrice d une habitude que nous avons prise de chercher dans l ordre alphabétique tel ou tel mot afin d accéder à une liste de pages. Le simple fait de lancer aujourd hui une recherche sur un mot avec un moteur de recherche nous interroge sur le processus mis en œuvre pour fournir les pages obtenues qui n a rien à voir avec l ordre alphabétique. Page de garde d un tome de l Encyclopédie Les moteurs de recherche sont aujourd hui au cœur de la recherche documentaire. Mais l accès à la connaissance n est pas aussi simple qu on

pourrait l espérer. Seule une analyse experte des résultats fournis par ces moteurs de recherche peut permettre leur exploitation. Avec ce document, nous invitons à découvrir une partie du secret de fonctionnement d un moteur de recherche, secret dont nous pouvons dire qu il est non seulement bien gardé mais aussi en perpétuelle évolution. Ces moteurs de recherche sont des outils incontournables de la transmission des savoirs, c est en montrant à l élève pourquoi Google est différent de l index de l encyclopédie du centre de connaissances et de culture que nous arriverons à développer le sens majeur d une utilisation raisonnée de ces outils. Nous souhaitons in fine fournir des éléments non seulement intéressants parce qu ils font partie de ce que l on appelle la culture numérique mais aussi incontournables dans la formation de nos élèves en ce qui concerne l analyse des données fournies par ces moteurs de recherche. Les moteurs de recherche David Fayon Expert en technologies numériques Auteur du livre intitulé «web 2. et au-delà» Monsieur FAYON est le concepteur d un site entièrement dédié à l actualité du web et du numérique que vous trouverez à l adresse suivante : www.david.fayon.fr. 1. Principes de fonctionnement Un moteur de recherche est un outil sur Internet qui permet de trouver des informations (pages, images, vidéos) associées à des mots saisis par l internaute. Les informations présentes sur le Web sont de plus en plus nombreuses. De surcroît, elles évoluent en permanence (mise à jour des pages, modification de l adresse d hébergement d un site). Aussi il est apparu nécessaire de développer des moteurs de recherche et des annuaires de sites qui classent les sites par thèmes pour faciliter le travail de recherche de l internaute.

Concrètement un moteur de recherche comprend deux grandes fonctionnalités. D une part l indexation. Il s agit pour le moteur de recherche de parcourir les pages du web via un robot d indexation qui va de lien en lien sur les sites (adresse de type http:// ou www) pour indexer les ressources récupérées dans des bases de données. Le robot regarde les modifications et les transmet à un indexeur qui référence le contenu des pages et enregistre le résultat dans un index. Chaque moteur possède son propre algorithme qui, par ailleurs évolutif. Ceci est effectué à l image de l indexation d un livre qui permet ensuite de retrouver facilement et par ordre alphabétique à quelle page se situe l information cherchée (par exemple un personnage historique cité dans l ouvrage). D autre part, la recherche des informations indexées par les moteurs (1), phase préalable à la consultation (2). L internaute va saisir des requêtes (phrase ou mots clés recherchés avec éventuellement des guillemets et des opérateurs logiques) dans un champ de saisie. Le moteur de recherche va faire appel à un algorithme qui va utiliser l index et trier et présenter les résultats du plus pertinent au moins. Notons que les moteurs de recherche peuvent disposer de modules complémentaires comme : - un correcteur orthographique pour déceler d éventuelles erreurs de saisie, - un lemmatiseur qui permet de restreindre des mots recherchés à leur forme de référence (par rapport aux pluriels, conjugaisons, etc.) et ne conserver qu une forme unique, - un outil de suppression des mots vides (tant dans l index que dans les requêtes), c est-à-dire les mots de transition qui ne sont pas indexés dans les bases de données (le, la, de, du, ce, etc.) de façon à augmenter la pertinence des résultats. 2. Les moteurs de recherche aujourd hui 9 % des recherches en France sont faites avec le moteur de recherche Google. Nous avons également des outils qui proposent des fonctions analogues comme Bing, Yahoo!, Exalead. Aussi il est important que son site ou son blog soit bien vu de Google et de connaître les techniques pour maximiser sa visibilité et apparaître, pour une recherche sur des mots clés donnés en rapport avec son site ou son blog, dans les premiers résultats délivrés par Google.

Globalement, les résultats pour une recherche sont la résultante de la pertinence par rapport aux mots clés saisis par le PageRank 1 d une site, score compris entre et 1 et qui est lié notamment aux nombres de liens (et à l importance de ceux-ci) qui pointent vers la page considérée de son site. Les techniques ont été raffinés et la notion de confiance (TrustRank) est également prise en compte dans le résultat. Résultat pour une requête sur Google = pertinence x PageRank Une requête donne plusieurs résultats classés par ordre de pertinence décroissant. Les internautes choisissent de cliquer sur les liens qui apparaissent dans les premières positions. D où la course à l optimisation pour que les pages de son site soient visibles. Il est à noter que globalement 7 % des visites sur les sites proviennent du référencement naturel, c est-à-dire du travail effectué par le webmestre pour développer et optimiser son site (choix des mots clés, titre des pages, adresses des pages URL avec les mots clés en rapport avec le contenu, balises de titres <h1> à <h6>, caractères gras, italiques, etc. pour mettre en exergue certains mots, liens entrants, noms des liens et des images, etc.). Les 3 % restant sont le résultat du référencement payant (achat des mots clés via un mécanisme d enchères, programme AdWords et AdSense de Google). Typiquement, lors d une recherche faite sur Google, par exemple «renault twingo», nous avons dans les premiers résultats des liens sur fond rose qui correspondent à des liens dits «sponsorisés» et qui correspondent à l achat de mots clés. Dès que l on clique dessus, on se rend à l espace souhaité et dans l exemple, Renault verse à Google quelques centimes d euros pour l apport de visiteur drainé. Ensuite apparaissent les liens qui proviennent du référencement naturel. Deux évolutions se dessinent pour les moteurs de recherche. D abord une 1 On pourra se référer à www.pagerank.fr

évolution vers les moteurs de recherche sémantique qui analysent les requêtes formulées et tentent de donner des réponses davantage en rapport. L exemple type est Wolfram Alpha, outil disponible pour l heure en anglais et qui est un moteur de recherche encyclopédique. Pour une requête donnée, une seule réponse est délivrée. Ensuite, le développement d autres outils qui permettent de donner des résultats dans l instantanéité. Ainsi Twitter comprend une zone de recherche et en saisissant un mot clé ou un groupe de mots clés en rapport avec une actualité, des résultats seront donnés par ordre antéchronologique avec, le cas échéant, des tweets qui comprennent des liens vers des sites où figurent une information plus complète, des photos, etc. Il s agit d une piste complémentaire à celle des moteurs de recherche traditionnels de type Google. La pertinence d une page web Jean-Alain Roddier IA-IPR de mathématiques L algorithme utilisé par le logiciel Google est un algorithme complexe qui attribue à chaque page web une valeur numérique que l on appelle sa pertinence ou PageRank. Toutes les pages web contenant ainsi le ou les mots proposés par l utilisateur sont ensuite classées suivant cette valeur numérique et les pages renvoyées par Google sont ainsi fournies par ordre décroissant de leur pertinence. C est cette notion de pertinence qui est délicate à percevoir et que nous vous proposons de découvrir. Prenons un exemple concret : Considérons quatre jeunes filles dont chacune d entre elles crée une page web identifiée par son prénom, on a ainsi 4 pages sur internet nommées : Belen, Elena, Inès et Sofia. Ces quatre copines se connaissent bien et elles ont souhaité mettre des liens sur leur

page web vers la page de l une ou plusieurs de ces copines. Pour illustrer cet ensemble de liens, on utilise ce que l on appelle un graphe orienté (figure cicontre). Les flèches bleues signifient ainsi que sur la page «Belen», on trouve trois liens pointant vers ses trois copines. Si ces quatre pages étaient les seules sur la toile, on peut se demander quelle serait celle à laquelle on attribuerait une valeur plus grande que les autres. 1. Les pertinences naïves Naïvement, on peut penser que l évaluation de la pertinence d une page web émane d un processus de lecture de cette page à l image d une professeure qui relève dans la copie d un élève le caractère pertinent de son argumentation. Vu le nombre de pages web (environ 1 milliards de pages), ce processus de lecture peut être qualifié de naïf. Une autre pertinence naïve pourrait consister à évaluer le nombre de pages qui pointe vers une page donnée, pourquoi estce naïf là-aussi? Car tout simplement, il serait alors facile de biaiser le système en créant de nombreuses pages web vides pointant vers une page donnée afin de faire augmenter artificiellement sa pertinence. On approche du principe de calcul du PageRank lorsque l on essaie de contrecarrer ce biais, c est ce que nous allons voir à présent. 2. La matrice de transition du graphe Nous allons reprendre le graphe de nos quatre amies et lui attribuer ce que l on appelle sa matrice de transition. 1/3 1/3 1/3 Expliquons un tant soit peu la construction de cette matrice, dont les 4 lignes et les 4 colonnes sont à lire dans l'ordre Belen Elena Inès Sofia ; pour ce faire observons sa deuxième ligne : 1/3 : le 1/3 correspond au fait que la page de Belen pointe vers Elena et que la page de Belen pointe vers trois pages. En résumé, le fait que Belen pointe vers Elena a pour poids 1/3 ; le correspond au fait qu Elena n a pas créé de lien réflexif sur sa page ;

le est lié à la page d Inès qui pointe vers la page d Elena et qui pointe vers deux pages ; enfin le exprime le fait que Sofia n a pas créé de lien vers la page d Elena. 3. Un utilisateur aléatoire On considère à présent un utilisateur qui se promène aléatoirement sur la toile constituée uniquement des 4 pages de ces bonnes copines. Au départ, la probabilité qu il soit sur une de ces 4 pages vaut ¼. On réunit ces quatre probabilités dans une nouvelle matrice X qualifiée d unicolonne présentée ci-contre. Pour connaître la probabilité que notre utilisateur se trouve sur tel ou tel page après le premier parcours, il suffit de multiplier la matrice A par la matrice X. Nous obtenons ci-contre la matrice unicolonne X 1. Certaines calculatrices disposent d un petit logiciel intégré qui permet de faire ce genre de calcul, nous pouvons alors poursuivre le processus en observant les probabilités obtenues après : 5/24 5/24 1/3 deux parcours : trois parcours : 13/48 3/16 7/24 23/96 31/144 17/72 89/288 etc La théorie plus compliquée des matrices ergodiques permet d affirmer que la suite des matrices unicolonnes ainsi obtenues converge. Le phénomène tend ainsi à se stabiliser vers une matrice unicolonne dont nous fournissons ici une valeur approchée obtenue à partir du calcul de X 1., 2542, 234, 2373, 351 Nous obtenons des valeurs approchées du PageRank de chaque page, ce qui permet de les classer dans l ordre croissant de pertinence suivant : Elena, Inès, Belen, Sofia.

Ce procédé de calcul a été mis au point par l informaticien Lary Page (photographie cicontre) co-fondateur de Google d où le nom de «PageRank» pour rang d une page obtenu en appliquant l algorithme de Lary Page. Ceci étant, d autres aspects complexes et plutôt secrets viennent interférer avec les résultats des calculs fournis par l algorithme, il s agit ainsi de faire augmenter le PageRank en intégrant des données personnelles connues sur l utilisateur afin de lui fournir des pages répondant non seulement à ses attentes mais aussi à des objectifs bien souvent commerciaux. Cette photographie de Lary Page est extraite du site Wikipédia ; elle a été prise au Parlement européen par Marcin Mycielski le 17 juin 29. La littératie numérique Laurent Chéno Inspecteur général de l Éducation nationale groupe des mathématiques Il nous est tous arrivé cette expérience fâcheuse : se retrouver privé d'internet à cause d'une connexion défectueuse, d'une panne ou d'un séjour à la campagne dans une zone non couverte par les réseaux. Et c'est alors qu'on se rend compte à quel point nous sommes accoutumés à utiliser l'internet et en particulier les moteurs de recherche dans notre vie quotidienne. Nous n'achetons plus de carte routière, ni de guide touristique : il est tellement plus simple de taper l'identification d'un lieu dans le champ de recherche de Google, qui nous donnera tout de suite la carte, le téléphone, les commentaires des visiteurs, et toute l'information utile pour notre excursion. Nous avons oublié de qui est une citation? Nous la tapons et Google nous retrouve instantanément l'auteur. Nous ne connaissons pas le sens du mot sérendipité? Google a la réponse pour nous. Mais toute médaille a son revers : à la question sérendipité, Google propose 225 résultats. Qui ira voir les pages 2, 3, ou suivantes? Et qui repérera dans la 27 e page de réponses le lien sur une page qui, justement, illustre le concept de sérendipité par la navigation sur le Web? Dans cette abondance de réponses, chacun va finalement se limiter à la première page de réponses de

Google, voire à la première réponse. De là à dire que Google nous apprend à penser, voire nous dicte quoi penser La littératie numérique, qui est un des objectifs de la formation au numérique que souhaite développer l'éducation nationale, désigne l aptitude à comprendre et à utiliser les outils numériques dans la vie courante, à la maison, au travail et dans la collectivité en vue d atteindre des buts personnels et d étendre ses connaissances et ses capacités. Elle ne peut s'acquérir que grâce à une éducation aux médias et à l'information que l'école doit pouvoir offrir à chaque élève : il s'agit donc en particulier d'apprendre à utiliser un moteur de recherche, c'est-à-dire à savoir composer une requête précise, à avoir le recul critique nécessaire devant les résultats proposés, et à citer ses sources au moment de leur réutilisation. Cet enseignement doit être l'affaire de tous : bien entendu les professeurs documentalistes sont en première ligne, mais toutes les disciplines sont sans doute directement concernées. Il suffit d'ailleurs de demander à un professeur, quelle que soit sa matière ou son niveau d'enseignement, s'il a déjà eu des copiés collés de Wikipedia sur une copie, pour comprendre que tous doivent prendre leur part dans cette éducation aux médias et à l'information. Le document que vous tenez entre vos mains (ou que vous lisez sur un écran) est une brique utile à la construction de cette nouvelle compétence, qu'on pourrait appeler numératie : en déchiffrant le fonctionnement même de l'algorithme Page Rank au cœur des moteurs de recherche, il permet d'avoir une utilisation plus responsable et plus intelligente de Google et de ses homologues. L'information, même abondante, ne suffit pas à immédiatement construire la connaissance : que les enseignants se rassurent, si leur rôle se modifie peutêtre dans le cadre d'une société numérique, il reste essentiel dans l'éducation des élèves qui leur sont confiés.