Etude comparative de six moteurs de recherche



Documents pareils
La recherche d'information sur Internet

Principes d AdWords. Quelques mots de présentation. Une audience large : les réseaux de ciblage. Réseau de recherche

Un bonne analyse de statistiques = La voie du succès!

Qu est ce que le référencement web?

CONTACT EXPRESS 2011 ASPIRATEUR D S

Guide d implémentation. Réussir l intégration de Systempay

Les Enjeux du Référencement de Sites Internet. Un livre blanc réalisé par Benchmark Group pour Netbooster

COMMENT CREER UNE CAMPAGNE AMAZON OFFRES D ANNONCEUR?

COMMENT AMÉLIORER LA VISIBILITÉ DE SON SITE WEB?

COMMENT AMELIORER LA VISIBILITE DE SON SITE WEB?

Bien architecturer une application REST

La publicité multimédia (internet)

14.1. Paiements et achats en ligne

E-Commerce à Orthez E-Commerce : Se lancer - Générer des commandes - Se positionner : Explications et témoignages Orthez 15 mai 2008

Référencement et visibilité sur Internet Comment améliorer la visibilité de son site internet sur les principaux moteurs de recherche?

Atelier E-TOURISME Optimiser la visibilité de son site sur les moteurs de recherche. ecotourismepro.jimdo.com

Qu'est-ce qu'un moteur de recherche. Moteur de recherche sur Internet

Réussir. son. référencement. web. Olivier Andrieu. Groupe Eyrolles, 2008, ISBN :

Pourquoi une stratégie de sites dédiés? Laurent-Pierre GILLIARD AEC 14/06/2007 Vincent MOREAU SYSTONIC 09/06/2006

COMMENT OPTIMISER SON RÉFÉRENCEMENT NATUREL?

Performance des campagnes de liens sponsorisés sur la vente en ligne

Le référencement de mon site

Gestion et animation de sites web. Synthèse

Google fait alors son travail et vous propose une liste de plusieurs milliers de sites susceptibles de faire votre bonheur de consommateur.

Pour vos questions ou une autorisation d utilisation relative à cette étude vous pouvez contacter l équipe via contact@4gmark.com

Petite définition : Présentation :

Kaizen Marketing Group Web Agency. Kaizen Marketing. - Stéphanie Héline-

Créer un compte personnel ou professionnel Facebook

Optimiser le référencement naturel de son site web

10 points clés pour bien démarrer votre projet web

Étude Olfeo 2013 : La réalité de l utilisation d Internet au bureau page : 1/15

Référencement & Positionnement

Partie II Approche théorique

En quoi consiste le REFERENCEMENT de votre site?

Initiation à la recherche documentaire LA RECHERCHE SUR INTERNET

Evaluation et analyse de la fréquentation d un site

INTERNET, C'EST QUOI?

Référencement Vendredi 4 Juillet Ile Degaby

Les modes de recherche sur le Web 2.0

Search Engine Marketing. Impact des campagnes marketing

>> Comment conquérir de nouveaux clients grâce à Internet?

Créateur de Visibilité

Pourquoi choisir la solution publicitaire Google AdWords?

Comment les Québécois utilisent-ils et cherchent-ils sur Internet?

Académie Google AdWords Atelier Optimisation Bordeaux, 8 mars 2011

Créer du contenu en ligne avec WordPress

En 2010, on compte environ 1,65 milliard d utilisateurs d internet, Introduction

Mesurer et analyser le trafic d un site internet Comment analyser l audience de son site et connaître les centres d intérêts des visiteurs?

Blogging et sites de contenu. Comment créer un site de contenu et l'animer

>> Le référencement payant. Qu est-ce que le référencement payant? La mise en relation directe avec les internautes qui vous recherchent

De la production collaborative à la capitalisation des connaissances Le rôle des documentalistes

Site internet de la ville de Sautron Tutoriel 1

La Stratégie de la Réussite avec Google AdSense

ContactForm et ContactFormLight - Gestionnaires de formulaire pour Prestashop Edité par ARETMIC S.A.

!" #$%&'(&)'*'+,--./&0'1&23,+2.)$4$%52'&%'6.%&2'

A l Aise Web - Web Analytique

ANNEXE 4 CHARTE DE CONCEPTION DES SERVICES SMS+ / MMS+

Maîtriser son identité numérique. Michel Futtersack, Faculté de Droit, Université Paris Descartes

Formation. Module WEB 4.1. Support de cours

Service des ressources informatiques - Conseil Scolaire de District Catholique Centre-Sud Page 1

Débuter avec WordPress 1/5

Mes citations. Guide Google Scholar

: seul le dossier dossier sera cherché, tous les sousdomaines

Installation et utilisation du client FirstClass 11

Ma campagne de liens sponsorisés avec AdWords

Twitter et Netvibes pour la veille

16 septembre Lundi de l Economie l. rencement. Foix. CCI Ariège

M E T T R E E N P L A C E U N E V E I L L E

MANUEL UTILISATEUR. Application 4trip

GUIDE PRATIQUE DE L INDEXEUR : LES PRINCIPES DE L INDEXATION COLLABORATIVE

Les principaux formats Pub proposés en affiliation

WEBSITEBURO. Agence Media Internet. Stratégies publicitaires on-line

PRISE EN MAIN RAPIDE

L audience de l internet en France en juillet 2015

Logiciel Le Sphinx Plus 2 version 5. Le Sphinx Développement Chavanod

Comment automatiser la création d index multiples avec Word Paul-Henri Dumas - URFIST

Ad-exchanges & RTB (avec la participation de Fabien Magalon, La place

Premiers pas sur facebook La dernière mise à jour de ce document date du 14 décembre 2012.

Google Adresses. Validez la fiche de votre entreprise ou organisation sur Google Maps

Thunderbird est facilement téléchargeable depuis le site officiel

Formation à la recherche documentaire sur le web

Conférence 14 Internet : quelles stratégies pour l'utiliser au mieux?

Référencement naturel

Utilisation avancée de SugarCRM Version Professional 6.5

DETERMINER LA LARGEUR DE PAGE D'UN SITE et LES RESOLUTIONS d'ecran

80 rue de Reuilly PARIS Guide d utilisation de la Bourse de l emploi des Centres de Gestion

FICHE PRODUIT COREYE CACHE Architecture technique En bref Plateforme Clients Web Coreye Cache applicative Références Principe de fonctionnement

1. l auditeur testera la présentation, le format et la transmission d un rapport d utilisation d un fournisseur.

Campagnes d ings v.1.6

Campagne de Communication Prévisionnelle. Web Intelligence & Réputation Internet

Google Analytics - Analysez le trafic de votre site pour améliorer ses performances inclut Universal Analytics (2ième édition)

0.1 Mail & News : Thunderbird

Maîtriser la diffusion de son catalogue e-commerce

Guide d utilisation. Version 1.1

Section Configuration

AGENCE WEB 360 acteur du web depuis 8 ans en collaboration avec ses partenaires, déploie son. offre SEO

Publication dans le Back Office

Comment démarrer en toute simplicité

Transcription:

http://www.up.univ-mrs.fr/veronis http://aixtal.blogspot.com. Université de Provence Etude comparative de six moteurs de recherche......... Jean Véronis Version 1.0 22 février 2006

Etude comparative de six moteurs de recherche Jean Véronis Introduction A la fin de l année 2005, le moteur de recherche Google bénéficiait du nombre d utilisateurs le plus important dans le monde, avec une proportion particulièrement élevée en France (plus de 82% du trafic selon le baromètre Xiti 1 ). Les raisons pouvant conduire les utilisateurs à préférer un moteur à un autre sont complexes, mais si des éléments tels que rapidité, ergonomie ou esthétique entrent indéniablement en jeu, le critère qui semble légitiment central est celui de la pertinence des résultats retournés du moins telle qu elle peut-être perçue par les utilisateurs. On dispose toutefois de peu de données permettant de comparer cette pertinence perçue, et en tous cas, à notre connaissance, d aucunes données récentes et comparatives sur la recherche d information francophone. La présente étude essaie de pallier partiellement ce manque en fournissant un test utilisateur de six moteurs de recherche sur des requêtes en français à la fin de l année 2005. Les moteurs choisis sont trois moteurs américains, Google, Yahoo et MSN, ainsi que trois moteurs français, Exalead, Voilà (développé par France Telecom et offert sur le portail Wanadoo) et Dir.com du groupe Iliad, qui constitue plus une plate-forme expérimentale qu un moteur à visée commerciale. D autres moteurs, tels qu AskJeeves ou mozdex, n ont pas été retenus car ils n offraient pas de version francophone (ou seulement une version bêta dans le cas de AskJeeves). Protocole L évaluation a été réalisée en décembre 2005 avec l aide de 14 étudiants de première année de licence MASHS (Mathématiques appliquées aux sciences humaines et sociales) à l Université de Provence (Aix-en-Provence), jouant le rôle d utilisateurs. 14 thèmes ont été choisis collectivement, de façon à refléter des domaines d utilisation très divers. Les thèmes retenus sont les suivants : Actualités Animaux Cinéma Divertissement Histoire Littérature Musique Nature 1 http://www.secrets2moteurs.com/barometre2005-12.html 2

Personnages célèbres Politique Santé Sports Surnaturel Voyages Chaque thème a été attribué à un étudiant différent, qui choisissait librement cinq requêtes. Le format (avec ou sans guillemets, en un seul ou plusieurs mots) était également totalement libre. Par exemple, pour le thème Actualités, les requêtes choisies ont été les suivantes : "abbé Pierre" célibat prêtres chaîne télévision jeunesse TNT "greffe visage" "grippe aviaire" danger Europe Outreau acquittement Il est possible que de meilleurs résultats aient pu être obtenus avec des requêtes formulées de façon différente, avec de meilleurs mots-clés ou un usage plus approprié des guillemets par exemple. Toutefois, le but ici n était pas d évaluer une utilisation par des experts, mais par un public de base, raisonnablement éduqué et familier des moteurs de recherche. Il était donc important de respecter les requêtes telles que le panel d utilisateurs les a formulées. Les requêtes ont été soumises aux différents moteurs le même jour (11 décembre 2005) par l organisateur de l expérience (Jean Véronis), en restreignant chaque moteur à la langue française, et en activant le filtre parental. La première page de 10 résultats non marqués comme sponsorisés a été archivée pour chaque requête et chaque moteur, puis débarrassée automatiquement des informations autres que les seules URL des résultats. En particulier, toute information sur le moteur de provenance a été supprimée. Au total, 4200 URL ont été récupérées (14 thèmes x 5 requêtes x 6 moteurs x 10 résultats). Pour chaque requête, les doublons (même URL retournée par deux moteurs différents) ont été supprimés, conduisant à 3450 couples uniques requête-url. Les couples requête-url correspondant à chaque thème ont été fournis à l étudiant concerné, sous forme d un fichier Excel, dans lequel la requête et l URL apparaissaient dans des colonnes consécutives (la requête faisant l objet d un lien cliquable vers le site correspondant). L étudiant devait évaluer le document pointé par l URL sans connaître le moteur de provenance, et reporter des informations dans des colonnes supplémentaires : Lien mort (1 si le site ne répond pas, 0 sinon) Lien pornographique (1 si le lien pointe vers un site pornographique, 0 sinon) Thème (indépendamment de la qualité de l information, 1 si le document est dans la thématique, 0 sinon) Site commercial (1 si le lien pointe vers un site de vente en ligne, 0 sinon) Pertinence (note de 0 à 5, 0 correspondant à un document totalement inutile ou hors-thème, 5 correspondant à un document répondant de façon parfaite à la question posée). La tâche devait être accomplie dans un délai d une semaine (du 12 au 18 décembre). 3

Liens morts Certains des liens retournés par les moteurs sont inaccessibles au moment de l interrogation par l utilisateur (nous les appellerons «liens morts»). Les raisons peuvent en être multiples : la page a pu disparaître entre le moment de son indexation et le moment de la requête, ou bien un problème momentané peut en empêcher l accès (serveur en panne par exemple). La proportion de liens morts peut varier selon le moment des requêtes et nous l avons donc mesurée à trois reprises différentes : chaque utilisateur a noté l information sur la «vivacité» du lien au moment de sa requête manuelle, et nous avons lancé par deux fois (à quelques jours d intervalle) des requêtes automatisées sur l ensemble des URL, en archivant les codes d erreur retournés (codes HTTP 4xx et 5xx). Les résultats sont consignés dans le tableau 1. Manuel 7,6% 8,9% 2,0% 2,9% 7,4% 2,6% Auto1 6,6% 6,1% 3,7% 1,9% 1,9% 4,7% Auto2 5,7% 5,7% 0,7% 1,3% 2,1% 1,0% Tableau 1 Proportion de liens morts La proportion de liens morts est plus importante lors des clics manuels : ceci s explique d une part par le fait que la procédure automatique utilisée faisait jusqu à trois tentatives espacées par un délai de quelques minutes en cas d échec et d autre part par le fait qu un certain nombre de serveurs ne retournent pas le code d erreur 404 («Page not found») lorsque la page n existe plus, mais une page HTML normale porteuse d un message ad hoc, qui ne peut être interprétée comme erreur que par un lecteur humain. On notera également la très grande variabilité des résultats obtenus automatiquement (lignes Auto1 et Auto2), pourtant dans des conditions strictement identiques. L analyse détaillée des résultats montre que pour une raison indéterminée, le site www.amazon.fr renvoyait un code d'erreur lors de l expérience Auto1. Or, c'est un des sites les plus retournés par les requêtes sur Google et Yahoo, et ce problème a eu un impact dramatique sur les résultats: sur les 26 erreurs comptabilisées concernant Google dans Auto1, 17 étaient dues au seul site www.amazon.fr, tandis que chez chez Yahoo, le site était responsable de 23 erreurs sur 33. Dans le reste de l étude seuls les liens actifs dans la phase manuelle ont été considérés. Liens pornographiques On sait que des liens à caractère pornographiques se glissent dans les résultats de requêtes sans caractère pornographique, l ingéniosité des référenceurs réussissant à les faire remonter artificiellement dans le classement par des techniques relevant du spam. La situation a pu être particulièrement critique par le passé, mais les moteurs offrent désormais tous une fonction de filtre parental permettant d assainir les résultats. Leur efficacité est notable puisque sur l ensemble des URL retournées seulement deux (une retournée par Voilà, l autre par MSN) renvoient à des sites pornographiques (sans lien aucun, évidemment, avec les requêtes). 4

Liens commerciaux Ont été considérés comme commerciaux les liens figurant parmi les liens normaux, non marqués comme sponsorisés, renvoyant vers les sites proposant des achats ou transactions en ligne. La proportion en est très variable selon les moteurs, puisqu elle va du simple au double (Tableau 2). Toutes positions 8,3% 8,0% 7,7% 7,1% 15,6% 10,9% Position 1 9,0% 9,4% 2,9% 10,1% 32,3% 10,4% Tableau 2 Proportion de liens commerciaux Si l on ne considère que le premier résultat retourné (il a une importance particulière, puisque c est le lien le plus cliqué par les internautes), on s aperçoit que les moteurs ont des stratégies opposées. Dir, Exalead et Yahoo ne font pas apparaître de différence particulière. La proportion de liens commerciaux s accroît en première position pour MSN et (très fortement puisqu elle double) pour Voilà. En revanche, la proportion diminue nettement pour Google. Parmi les sites commerciaux qui apparaissent au moins 10 fois dans un des moteurs, seules figurent trois sociétés : Amazon, E-Bay et PriceMinister. Leur association avec les différents moteurs est intéressante à étudier (dans cet ordre). Google et Yahoo sont fortement associés à Amazon, tandis que Voilà préfère Ebay et PriceMinister. Les autres moteurs ne semblent pas avoir d'affinités particulières avec les sites marchands. Globalement, c est MSN qui renvoie le moins de liens vers des sites commerciaux avec 7,1%. priceminister ebay Voila Google 25 amazon Yahoo 0 Exalead MSN Dir Figure 1 Associations préférentielles entre moteurs et sites commerciaux Recouvrement des résultats Le recouvrement des résultats entre moteurs est extrêmement faible, puisqu il varie, selon les couples considérés entre 2,9% (Dir/Voilà) et 25,1% (Google/Yahoo) (tableau 4). 5

Dir -- 5,9% 6,4% 5,7% 2,9% 6,7% Exalead 5,9% -- 12,1% 10,1% 6,4% 11,9% Google 6,4% 12,1% -- 18,9% 7% 25,1% MSN 5,7% 10,1% 18,9% -- 5,7% 16,6% Voila 2,9% 6,4% 7% 5,7% -- 6,7% Yahoo 6,7% 11,9% 25,1% 16,6% 6,7% -- Tableau 3 Résultats communs par couple de moteurs Sur l ensemble des URL uniques retournées par les 6 moteurs, moins de 10% sont retournées par au moins deux moteurs (figure 2). 100% 80% 60% 40% 20% 0% 1 2 3 4 5 6 Moteurs Figure 2 Répartition des URL uniques en fonction du nombre de moteurs qui les retournent La proximité entre différents moteurs peut être calculée et représentée de façon graphique, sur la base du nombre de résultats qu ils partagent, grâce à une technique dite classification ascendante hiérarchique (figure 3). On voit que les moteurs les moteurs les plus proches sont Google et Yahoo. Yahoo Google MSN Exalead Dir distance Voila 0,70 0,75 0,80 0,85 0,90 0,95 1,00 Figure 3 Proximité des moteurs en fonction de leurs résultats communs 6

Pages hors-thème La proportion de pages hors thème est particulièrement importante, puisqu elle va de 21,7 % (Yahoo) à 49,1 % (Voilà). Le tableau 4 récapitule les résultats obtenus. Toutes positions 46,5% 34,5% 24,8% 31,2% 49,1% 21,7% Position 1 43,3% 29,7% 16,2% 29,0% 72,3% 17,9% Tableau 4 Proportion de pages hors-thème La situation s améliore à peine lorsqu on ne considère que le premier résultat retourné pour chaque requête. De façon tout à fait étonnante, les résultats de Voilà se dégradent, puisque le pourcentage de pages hors-thème en première position passe à 72,3% pour ce moteur. Il semblerait que cette augmentation soit due à la proportion importante de liens commerciaux retournés par ce moteur dans le haut du classement des résultats, souvent en rapport lointain avec la requête. On notera que les liens commerciaux sont plus fréquemment hors thème : le tableau 5 montre une dégradation des performances allant de 3,8% (Dir) à 19,3% (Voilà). Non commerciaux 46,2% 33,9% 24,2% 30,2% 46,1% 20,7% Commerciaux 50,0% 41,2% 32,1% 43,8% 65,3% 29,7% Différence 3,8% 7,3% 7,9% 13,5% 19,3% 9,0% Tableau 5 Liens commerciaux et pages hors-thème Pertinence Les notes globales sont extrêmement basses, puisqu aucun moteur n atteint la note moyenne de 2,5. Les moteurs obtenant la meilleure note (2,3) sont Google et Yahoo (tableau 6 et figure 4). La situation est légèrement meilleure si l on ne considère que la première position : Google et Yahoo, dépassent alors très légèrement la moyenne. A nouveau, il est surprenant de constater que la note de Voilà est plus mauvaise en première position. Toutes positions 1,4 1,8 2,3 2,0 1,2 2,3 Position 1 1,5 2,2 2,9 2,3 0,5 2,8 Tableau 6 Pertinence perçue (note de 0 à 5) 7

5 4 Note moyenne 3 2 1 0 Google Yahoo MSN Exalead Dir Voila Figure 4 Pertinence perçue La figure 5 représente la note moyenne en fonction de la position pour chaque moteur. On constate une baisse générale de pertinence perçue en fonction de la position, sauf pour Dir et Voilà, qui atteignent leur meilleur résultat en positions 8 et 7 respectivement, ce qui laisse penser que les algorithmes de classement ne sont pas optimaux pour ces moteurs 2 (ou, dans le cas de Voilà, perturbés par l interclassement de sites commerciaux). Note moyenne 5 4 3 2 Google Yahoo MSN Exalead Dir Voila 1 0 1 2 3 4 5 6 7 8 9 10 Position Figure 5 Pertinence en fonction de la position Les résultats recevant la note 0 (donc perçus comme totalement inutiles) sont extrêmement nombreux : leur proportion dépasse 50% pour deux moteurs (Dir et Voilà), et atteignent tout de même 27,7% dans le meilleur cas (Yahoo). En ce qui concerne la première position, les résultats s améliorent quelque peu, mais le minimum reste de 16,2% (Google). Le moteur Voilà voit sa proportion de résultats notés 0 monter à 78,5% (tableau 7). 2 Rappelons que Dir.com est seulement une plate-forme expérimentale. Ce moteur a mis en ligne fin janvier 2006 une nouvelle version avec des modifications importantes de l algorithme de classement, mais celle-ci n a pas pu être testée dans le cadre de cette étude. 8

Toutes positions 50,9% 40,6% 28,6% 35,0% 53,1% 27,7% Position 1 50,7% 35,9% 16,2% 34,8% 78,5% 20,9% Tableau 7 Proportion de résultats notés 0 A l inverse, les résultats notés 5 (résultat excellent, satisfaisant pleinement à la question posée) toutes positions confondues sont peu nombreux. Ils atteignent au mieux 15,9% pour Google. En position 1, Yahoo émerge avec 28,4% de pages notées 5 (tableau 8). Toutes positions 9,1% 11,0% 15,9% 11,9% 5,4% 15,7% Position 1 11,9% 17,2% 22,1% 20,3% 1,5% 28,4% Tableau 8 Proportion de résultats notés 5 Le croisement avec le caractère commercial des liens montre que d une façon générale, les liens commerciaux reçoivent une note plus faible, la différence pouvant aller jusqu à un point (Google, MSN), ce qui est important, si l on considère que la note moyenne maximale dépasse à peine 2 (tableau 9). Non commerciaux 1,4 1,8 2,4 2,1 1,3 2,4 Commerciaux 1,0 0,9 1,4 1,1 0,6 1,5 Différence -0,4-0,9-1,0-1,0-0,7-0,9 Tableau 9 Pertinence et liens commerciaux Discussion Cette étude, qui est certainement loin d être exhaustive, donne néanmoins un instantané des performances des moteurs de recherche fin 2005. Le résultat sans doute le plus frappant est le degré de satisfaction très médiocre des utilisateurs. Pour les meilleurs moteurs (Yahoo, Google), la note moyenne sur le premier écran de 10 résultats atteint à peine 2,3 sur une échelle de 0 à 5. La proportion des résultats hors thème est élevée, puisqu elle atteint pratiquement la moitié pour certain moteurs, et le cinquième pour Yahoo qui réalise la meilleure performance sur ce critère. La proportion de liens à caractère commercial est élevée, puisque elle varie entre 7 et 16% environ selon les moteurs. En soi, la présence de liens commerciaux n est pas nécessairement nuisible à la qualité : sur une requête telle que «Harry Potter», faire apparaître la page Amazon où le livre peut être acheté peut être pertinent. Néanmoins, on observe, dans l état actuel des choses, une nette dégradation des résultats en terme de pertinence perçue sur les liens commerciaux, et ce pour tous les moteurs. Enfin, on remarquera que rien dans cette étude ne permet d expliquer la préférence massive des internautes pour le moteur Google, puisque, globalement Google et Yahoo ont des performances à peu près équivalentes, et se détachent de leurs concurrents. Il faut donc supposer que les raisons en sont autres que des critères de pure pertinence des résultats. 9

Remerciements Cette étude a pu être réalisée grâce à l efficacité et à l enthousiasme des étudiants de la licence MASHS à Aix-en-Provence, auxquels j adresse mes remerciements. Je suis également reconnaissants aux lecteurs qui m ont fait part de nombreuses réflexions et commentaires sur des fragments de cette étude publiés sur le blog «Technologies du langage 3». 3 http://aixtal.blogspot.com 10