Faculté Polytechnique



Documents pareils
De l'open source à l'open cloud

Optimiser le référencement naturel de son site web

Google Analytics - Analysez le trafic de votre site pour améliorer ses performances inclut Universal Analytics (2ième édition)

[ Rencontres Mondiales du Logiciel Libre 2011 Lundi 11 juillet 2011 ] Introduction à l'open Hardware Auteur : Dr Ir Robert Viseur

[ ABE, Bruxelles Mercredi 27 mars 2013 ] Les modèles d'affaires des prestataires en logiciels libres Auteur : Dr Ir Robert Viseur

Touchez votre audience au bon moment grâce aux campagnes universelles. Touchez votre audience au bon moment grâce aux campagnes universelles

Fouillez facilement dans votre système Big Data. Olivier TAVARD

EN INFORMATIQUE ET GESTION

Le BigData, aussi par et pour les PMEs

Open the Source II - Gembloux, 17 mars Cartographie du marché Open Source belge. Robert Viseur (robert.viseur@cetic.be)

Packs ré séaux sociaux & SEO: Caracté ristiqués

Faculté Polytechnique

ABC Analytics Manuel succinct

E-Commerce à Orthez E-Commerce : Se lancer - Générer des commandes - Se positionner : Explications et témoignages Orthez 15 mai 2008

Atelier numérique Développement économique de Courbevoie

Agence Saison d Or :: Activités de l entreprise. Identité Visuelle. Editions. Site Internet. Marketing. Référencement.

Évaluation des logiciels et autres réalisations

ETRE VISIBLE SUR INTERNET. Search Engine Optimisation (SEO)

L introduction à la thèse

Qu'est-ce qu'un moteur de recherche. Moteur de recherche sur Internet

: seul le dossier dossier sera cherché, tous les sousdomaines

MODE D'EMPLOI. La gestion des versions permettra de compléter et de faire évoluer les fiches dans le temps. NOM DE LA RESSOURCE CONTACT FOURNISSEUR

Science Direct - Cell Press

Tableau de bord. 1 mai mai 2012 Comparaison avec : 1 avr avr Visites. 55,18 % Taux de rebond

CommentWatcher. plateforme Web open-source pour analyser les discussions sur des forums en ligne. Marian-Andrei RIZOIU

Le référencement de mon site

Ma campagne de liens sponsorisés avec AdWords

[ Jeudis du Libre, Mons Mercredi 16 mai 2012 ] Créer un moteur de recherche avec des logiciels libres Auteur : Dr Ir Robert Viseur

Recherche et Diffusion de l Information dans les Réseaux. Philippe Robert. Le 8 avril 2014

La Clé de notre succès est "r + a + r = rr" ( Relevanz + aléatoire + rotation = résultat de la recherche)

Ou comment devenir visible sur la toile

Big Data Concepts et mise en oeuvre de Hadoop

CONTACT EXPRESS 2011 ASPIRATEUR D S

SEARCH MARKETING DISPLAY & SOCIAL ADVERTISING

Single User. Guide d Installation

Référencement et visibilité sur Internet Comment améliorer la visibilité de son site internet sur les principaux moteurs de recherche?

REFERENCEMENT D'UN SITE SOUS JOOMLA. Joomla 2.5. Sommaire

Tutorial Terminal Server sous

Principes d AdWords. Quelques mots de présentation. Une audience large : les réseaux de ciblage. Réseau de recherche

CHAPITRE 3 L AMORTISSEMENT LINEAIRE

Conseils pour rédiger vos posters scientifiques

Être visible sur internet - Améliorez votre référencement

WEBSITEBURO. Agence Media Internet. Stratégies publicitaires on-line

Internet et Big Brother : Réalité ou Fantasme? Dr. Pascal Francq

GOOGLE, OUTILS EN LIGNE

[ Rencontres Mondiales du Logiciel Libre 2011 Lundi 11 juillet 2011 ]. Cartographie des marchés Open Source belges et français.

Guide de réalisation d une campagne marketing

Éditeur Elsevier Langue(s) Multilingue

Veille stratégique sur Internet Comprendre les enjeux, maîtriser les outils et partager l'information

Les Réunions Info Tonic. Améliorer la visibilité de son site internet Mardi 10 décembre 2013

Référencement naturel

Manuel du client de bureau distant de KDE

Les modes de recherche sur le Web 2.0

DIGITAL MINDS. Chapitre 3, Le cercle vertueux du pay per click. 12 Clés pour Développer votre Business sur le Web WSI. All rights reserved.

Surveillez et gérez votre e-réputation ti sur internet

Réplication E-maj Foreign Data Wrapper PostGIS PostgreSQL-f

Optimiser ma relation client par l . Atelier numérique Dans le Cotentin

CAHIER DES CHARGES SITE WEB : Steve Mind Magicien Close-up & Mentaliste - 1 -

L ANALYSE COUT-EFFICACITE

NC 06 Norme comptable relative aux Immobilisations incorporelles

RÉPUBLIQUE TUNISIENNE MINISTÈRE DE L'ENSEIGNEMENT SUPÉRIEUR ET DE LA RECHERCHE SCIENTIFIQUE INSTITUT SUPÉRIEUR DES ETUDES TECHNOLOGIQUES DE DJERBA

Préparer la synchronisation d'annuaires

Trends. Médias sociaux et SEO - la force du contenu

Les sites de presse en ligne et le moteur Google

Formation à la recherche documentaire sur le web

PROGRAMME DETAILLE. Parcours en première année en apprentissage. Travail personnel CC + ET réseaux

Modèles de licence de SQL Server 2012

Découverte et analyse de dépendances dans des réseaux d entreprise

Notre planète mobile : Canada

Des Canaux Complémentaires & Non Parallèles!

Nos webmasters, web designers et ingénieurs de développement vous accompagnent dans vos projets afin de vous apporter entière satisfaction.

Support Google Analytics - 1 / 22 -

1 Introduction à Emerginov

DOCUMENT D INFORMATION D IDC

Ressources APIE. La comptabilisation des actifs immatériels : enjeux et applications. immatériel. Pour comprendre. En bref

Retour d expérience RATP. Intégrer le test de performance au cœur du processus de développement agile. Challenges, techniques, résultats.

Windows Azure Platform Développez, déployez et administrez pour le Cloud Microsoft

LES TABLETTES : EN PRATIQUE

INTERNET. Etsup 2012

Fiche Technique. Présentation du problème. Les sites de stockage. Les sites applicatifs avec possibilité de stockage

Documentation utilisateur. [EIP] TransLSF

Bilan de référencement

Où êtes-vous positionnés?

Internet et les médias sociaux

MEDLINE BANQUE DE DONNÉES EN MÉDECINE INTERFACE PUBMED INITIATION

Dans nos locaux au 98 Route de Sauve NÎMES. Un ordinateur PC par stagiaire, scanner, imprimante/copieur laser couleur

Interopérabilité avec outils de mass mailing (mailchimp, sarbacane (upe13), mandrill, z (medef 93 94))

RÉSEAUX SOCIAUX & BTOB

Mise en route. QuickBooks. en ligne. Quelques conseils pour démarrer en beauté

Documentation Audit SEO

La tête dans les nuages

Réussir. son. référencement. web. Olivier Andrieu. Groupe Eyrolles, 2008, ISBN :

L'automatisation de l'extreme. Travailler comme 20 hommes avec un seul cerveau

BIEN NAVIGUER SUR INTERNET. 2. Les moteurs de recherche. Ligue Libérale des Pensionnés asbl

Introduction aux services de domaine Active Directory

Gestion collaborative de documents

Qu'est ce que le Cloud?

Chapitre 1 L interface de Windows 7 9

Le serveur communication unifiée IceWarp. Guide de mise à jour. Version 10. Février IceWarp France / DARNIS Informatique

Transcription:

Faculté Polytechnique Séminaire M@rsouin 2012 Le chercheur peut-il se fier aux volumétries indiquées par les moteurs de recherche commerciaux? Dr Ir Robert Viseur Brest, 24-25 mai 2012

Contexte (1/2) Point de départ : Démarrage d'une recherche nécessitant une mesure de la popularité d'entreprises, de marques, de produits sur Internet, utilisant les APIs de moteurs de recherche. Constat : problèmes dans les volumétries des résultats de recherche (testé avec Google). Question : Peut-on se fier aux volumétries estimées par les moteurs de recherche? Université de Mons Dr Ir R. Viseur FPMs : Service d'économie et de Management de l'innovation 2

Contexte (2/2) Intérêt? Littérature professionnelle encourageant l'usage des APIs. De nombreuses recherches utilisent les résultats issus des moteurs de recherches commerciaux. Usages variés : traitement de la langue, analyse des sentiments (texte), analyse des performances des entreprises, évaluation automatique de la qualité de revues ou d'articles, etc. Cadre théorique existant : Webométrie : étude quantitative des phénomènes relatifs au Web (voir notamment Thelwall). Exemple d'éléments étudiés : classements et volumétries. Université de Mons Dr Ir R. Viseur FPMs : Service d'économie et de Management de l'innovation 3

Points forts et points faibles des moteurs commerciaux (1/2) Points forts : Index de grande taille. Richesse de la syntaxe d'interrogation (opérateurs). Points faibles : Secret des algorithmes de classements. Existence d'associations préférentielles entre sites commerciaux et moteurs de recherche. Biais géographiques. Interdiction des requêtes automatiques. Obligation de passer par des APIs. Passage progressif vers un modèle payant (pour tous les moteurs). Diverses restrictions d'utilisation (utilisation des données, trafic maximum autorisé, etc.). Université de Mons Dr Ir R. Viseur FPMs : Service d'économie et de Management de l'innovation 4

Points forts et points faibles des moteurs commerciaux (2/2) Points faibles (suite) : Évolutions dans le temps. Exemple : Yahoo! nouvel algorithme de classement, évolution de la syntaxe disponible, passage au modèle payant, etc. Alternatives : Utilisation d'une méthode de prédiction des volumétries. Création d'index spécialisés (ex.: technologies libres comme Lucene, SolR, etc.). Université de Mons Dr Ir R. Viseur FPMs : Service d'économie et de Management de l'innovation 5

Problème de la volumétrie Volumétrie : nombre de résultats estimé pour chaque requête. Les problèmes connus : Instabilité dans le temps (répétition de requêtes). Différences entre le nombre estimé dans la WUI et le nombre estimé dans l'api. Manque flagrant de fiabilité pour certaines requêtes. Exemple : «link:» sous Google. Obsolescence rapide des études pratiques compte tenu de la vitesse d'évolution des APIs (et plus largement des moteurs de recherche). Voir notamment : Mayr et Tosques, 2005 ; McCown et Nelson, 2007. Université de Mons Dr Ir R. Viseur FPMs : Service d'économie et de Management de l'innovation 6

Hypothèses Trois hypothèses testées : 1. Les requêtes complexes, ou booléennes, donnent des résultats conformes à la théorie des ensembles. 2. La volumétrie donnée par l'api est différente de la volumétrie donnée par la WUI. 3. La volumétrie donnée par l'api n'est pas proportionnelle à la volumétrie donnée par la WUI. Université de Mons Dr Ir R. Viseur FPMs : Service d'économie et de Management de l'innovation 7

Méthodologie Hypothèse 1 : Les rapports q1 et q2 doivent tendre vers 1. Hypothèse 2 : Rapports des volumétries (WUI et API). Hypothèse 3 : Corrélation entre volumétries (WUI et API) Au total : 120 requêtes. Université de Mons Dr Ir R. Viseur FPMs : Service d'économie et de Management de l'innovation 8

Résultats : Hypothèse 1 Rapport entre les nombres de résultats obtenus et attendus dans le cas de requêtes booléennes. Résultats : Bing : ok ; Google : nok. Remarques : Interprétation de l'opérateur AND dans Google? Attention à l'écriture de l'opérateur OR (vs or)! Université de Mons Dr Ir R. Viseur FPMs : Service d'économie et de Management de l'innovation 9

Résultats : Hypothèse 2 Rapport entre nombre de résultats estimés. Résultats : Nombre de résultats envoyés par l'api << WUI (Google). Phénomène de «Danse» sous Bing? Comptabilisation différente dans Bing et Google? Université de Mons Dr Ir R. Viseur FPMs : Service d'économie et de Management de l'innovation 10

Résultats : Hypothèse 3 Corrélations entre nombre de résultats estimés. Résultats : Corrélations globalement fortes pour Google. Différence entre requêtes simples et composées? Université de Mons Dr Ir R. Viseur FPMs : Service d'économie et de Management de l'innovation 11

Discussion Apport : Confirmation globale des résultats de recherche antérieurs. Mise en évidence de nouveaux problèmes liés aux requêtes composées. Bing : Meilleure fiabilité générale comparé à Google. Phénomène de «Danse»? Google : Index de tailles différentes entre API et WUI (McCown et Nelson, 2007)? Différentes méthodes de comptabilisation des pages similaires ou dupliquées? Différences explicables par le mécanisme d'analyse des requêtes entrées par les utilisateurs (ex. : Cutts, 2010)? Recommandations (si API nécessaire): Privilégier Bing (pour le moment...). Analyse préalable des données extraites par API avant utilisation. Université de Mons Dr Ir R. Viseur FPMs : Service d'économie et de Management de l'innovation 12

Perspectives Déjà fait : Fonctionnement de la dernière API Google? Comparable à l'ancienne API. Influence du ciblage géographique sur les volumétries. Comportement différent pour Google si ciblage géographique (Web français vs Web mondial). A faire : Tests sur Yahoo! (après basculement sur technologie Microsoft) Tests sur des moteurs de recherche spécialisés (ex. : Google News). Mise en œuvre de jeux de données plus importants. Remarque : Mise à jour : annonce du passage de Bing au modèle payant. Université de Mons Dr Ir R. Viseur FPMs : Service d'économie et de Management de l'innovation 13

Merci pour votre attention. Des questions? Cette présentation est diffusée sous licence CC-BY-ND. Université de Mons Dr Ir R. Viseur FPMs : Service d'économie et de Management de l'innovation 14

Contact Dr Ir Robert Viseur Assistant @UMONS UMONS, Faculté Polytechnique Rue de Houdain, 9 B-7000 Mons Mail : robert.viseur@umons.ac.be Guideur technologique @CETIC CETIC Rue des Frères Wright, 29/3 B-6041 Charleroi Mail : robert.viseur@cetic.be Plus d'infos : www.robertviseur.be Université de Mons Dr Ir R. Viseur FPMs : Service d'économie et de Management de l'innovation 15