Recherche d information textuelle



Documents pareils
Kaizen Marketing Group Web Agency. Kaizen Marketing. - Stéphanie Héline-

Réussir. son. référencement. web. Olivier Andrieu. Groupe Eyrolles, 2008, ISBN :

VIS MA VIE D EXPERT COMPTABLE. Comment sortir la tête de l eau?

Pourquoi une stratégie de sites dédiés? Laurent-Pierre GILLIARD AEC 14/06/2007 Vincent MOREAU SYSTONIC 09/06/2006

David BEDOUET, WebSchool Orleans. Cosmina TRIFAN, WebSchool Orleans

Jeudi 30 avril L art de bien référencer son site Internet

Cosmina TRIFAN Chef de projets Webmarketing, Pentalog WebSchool Orleans

E-Commerce à Orthez E-Commerce : Se lancer - Générer des commandes - Se positionner : Explications et témoignages Orthez 15 mai 2008

L introduction à la thèse

LES LEVIERS DE L EMARKETING. OAP Marketing Web - ESC Toulouse 2008 Intevenant: francois@goube.org

Mesurer le retour sur investissement

Livre Blanc Guide pratique pour un bon référencement Internet.

16 septembre Lundi de l Economie l. rencement. Foix. CCI Ariège

Le référencement naturel

Introduction. M2206 Intégration web. Introduction. Introduction 20/01/2014

SEO On-page. Avez-vous mis toutes les chances de votre côté pour le référencement de votre site?

REFERENCEMENT ET PERFORMANCE DU SITE WEB

A l Aise Web - Liens sponsorisés

quicksite Bienvenue à ce séminaire «Optimiser votre contenu pour Google»

Evaluation et analyse de la fréquentation d un site

Référencement et visibilité sur Internet Comment améliorer la visibilité de son site internet sur les principaux moteurs de recherche?

Référencement Naturel ou SEO Search Engine Optimization

Guide de création de site web optimisé

Qu est ce que le référencement web?

Ma campagne de liens sponsorisés avec AdWords

Formation. La boite à Outils du Web

Principes d AdWords. Quelques mots de présentation. Une audience large : les réseaux de ciblage. Réseau de recherche

La Performance Digitale en Business to Business

Formation e-publicité

En quoi consiste le REFERENCEMENT de votre site?


Réussir son référencement web

Référencement & Positionnement

Eurateach labellisé par la région et le FAFIEC. Si vous remplissez les conditions suivantes : Votre entreprise compte moins de 250 salariés

Logiciels de référencement

Optimiser le référencement naturel de son site web

La publicité multimédia (internet)

LE REFERENCEMENT NATUREL D UN SITE WEB1

Créer et animer une boutique en ligne avec Wordpress (environnement PC et MAC)

Trends. Médias sociaux et SEO - la force du contenu

demander pourquoi mon site n'apparaît pas sur google ou pourquoi mon site n'est pas référencé par les moteurs de recherche?

Référencement naturel & E-tourisme. Pau 02/10/2008

GUIDE DE RÉFÉRENCEMENT POUR VOTRE SITE INTERNET

Fiche pratique : REPORTING SEARCH

WEBSEMINAIRE INTRODUCTION AU REFERENCEMENT

Les clés d un bon référencement en Renaud Alquier: gérant et fondateur de l agence interactive LaNouvelle R

Rokhaya BARRY Fondatrice de ROKBARRY CREATIONS & services@rokbarry.com. Documents Propriétaire : RokBarry

Séances 4 à 6. Le tableau suivant résume la multiplicité des indicateurs de performance utilisés dans les campagnes digitales.

SEO Campus 2009 : Pagerank et optimisation

SOMMAIRE. 1. Comprendre les bases - référencement, indexation et positionnement - comment fonctionne Google pour indexer et référencer un site?

Google AdWords : le Guide complet Optimisez vos campagnes pour gagner plus!

WordPress Référencement naturel (SEO) Optimiser. son référencement. Daniel Roch. Préface d Olivier Andrieu

Être visible sur internet - Améliorez votre référencement

INTERNET, C'EST QUOI?

B a r u y r S A R K I S S I A N

ARIA Languedoc-Roussillon. Atelier Internet «Le référencement et les autres outils webmarketing»

Ateliers de formation Internet. epub : netlinking et Adwords

Bien acheter son référencement Leila Couaillier-Moumeni LSFinteractive

Référencement naturel

Centre de formation digital et communication : www. Komelya.fr

DUT GEA. Informatique D après le document de Laurent GILI / Lycée Prévert

E PUB MIX MEDIA MEDIA DIGITAL : LES DIFFERENTS LEVIERS DE L E-PUB

Les principaux formats Pub proposés en affiliation

Comment optimiser son site pour le référencement

Référencement naturel

10 points clés pour bien démarrer votre projet web

NOS SERVICES NOTRE METHODOLOGIE

Google AdWords ou référencement naturel Comment choisir?

SEO perspec(ves Novembre 2013

Agence web en Suisse romande CH-1260 Nyon

WEBSITEBURO. Agence Media Internet. Stratégies publicitaires on-line

LE PHISHING, PÊCHE AUX POISSONS NAÏFS

WordPress Référencement naturel (SEO) Optimiser. son référencement. Daniel Roch. Préface d Olivier Andrieu

ETRE VISIBLE SUR INTERNET. Search Engine Optimisation (SEO)

RÉPUBLIQUE TUNISIENNE MINISTÈRE DE L'ENSEIGNEMENT SUPÉRIEUR ET DE LA RECHERCHE SCIENTIFIQUE INSTITUT SUPÉRIEUR DES ETUDES TECHNOLOGIQUES DE DJERBA

****************** site internet, blog ou les 2?*****************

Ou comment devenir visible sur la toile

1 Avant-Propos 5 Remerciements. 9 Usages, contraintes et opportunités du mobile. 33 Site ou application : quelle solution choisir? Table des matières

Référencement Vendredi 4 Juillet Ile Degaby

La campagne de netlinking ou comment améliorer son indice

INTERNET est un RESEAU D ORDINATEURS RELIES ENTRE EUX A L ECHELLE PLANETAIRE. Internet : interconnexion de réseaux (anglais : net = réseau)

Comment réussir son référencement

A. L audit de l ergonomie 11. B. Quand réaliser un audit de l ergonomie? 11. C. Notions élémentaires Utilisabilité 12 2.

Accompagnement et aides. financières de Pôle Emploi

Les sites de presse en ligne et le moteur Google

COMMENT OPTIMISER MA VISIBILITÉ SUR LE WEB? AMÉLIORER MON RÉFÉRENCEMENT


Programme Type de Formation SEO

Webmarketing Définir, mettre en pratique et optimiser sa stratégie 2.0

Le B.A-BA du E-Fundraising : ce qu il faut savoir pour se lancer dans la collecte en ligne

Le référencement de mon site

Référencement & Positionnement sur le WEB

Référencement de votre site Web Google et autres moteurs de recherche (4ième édition)

Luc RUBIELLO

LIVRE BLANC COMBATTRE LE PHISHING. Auteur Sébastien GOUTAL Responsable Filter Lab. Janvier

Formations Web. Catalogue 2014 Internet Référencement Newsletter Réseaux sociaux Smartphone

Transcription:

Recherche d information textuelle Recherche Web B. Piwowarski CNRS / LIP6 Université Paris 6 benjamin@bpiwowar.net http://www.bpiwowar.net Master IP - 2014-15 Cours et travaux pratiques basés sur les documents de P. Gallinari et S. Lamprier (LIP6)

Introduction Recherche Web Recherche d'information textuelle

Evolution des moteurs de recherche 1994 97 Excite, Lycos, etc Contenu 1998 Google, Yahoo Liens Click through Anchor text 2002 Pubs Multiplication des services Prise en compte contexte et utilisateur Autres sources d information Web 2.0, etc 3

RI Web vs RI classique Corpus Taille, Nature, Dynamicité Contexte Réseau, localisation, historique Individus Grande variabilité Prise en compte progressive des profils pour la recherche web 4

Individus Recherche Web Recherche d'information textuelle

Besoins d information Requêtes Loi de puissance peu de requêtes populaires Beaucoup de requêtes rares Taille moyenne requêtes < 3 mots 1998, moyenne 2.35 2001 moyenne 2.54 Besoins d information dynamiques Utilisation pauvre du langage de requête 6

Besoins d information Besoin Transactionnel Achats en ligne Acceder à une ressource Musique, livre, réservation avions hotels, Météo, Google-Maps, downloads, Informationnel Consultation Se renseigner sur un sujet Navigation Joindre une page donnée Interaction Recall souvent peu important, precision mise en avant 7

Individus - exemple http://www.iprospect.com/premiumpdfs/whitepaper_2006_searchengineuserbehavior.pdf 8

Google Trends - Le buzz du moment : expressions à la plus forte progression Recherche d'information textuelle 9

Les statistiques de Google Trends Recherche d'information textuelle 10

Flu Trends 11

Individus Recherche Web Recherche d'information textuelle

Le Web Croissance désordonnée Pas de coordination Nature des informations Contient des informations obsoletes, mensongères, etc Texte, html, images, structuré (XML), BD, Statique vs dynamique Le web dynamique n est pas indexé Quelques travaux Web caché 1 ou 2 facteurs d echelles plus gros que le web visible? Multilingue Difficulté des analyses lexicales 13

Go-globe.com (juin 2011) 14

Taille du Web indexé par Google 15

Le Web Forte croissance Double tous les mois (!!check) La taille du web réel n est pas connue Qu est ce qui est mesuré Nombre d hôtes Nombres de pages statiques Etudes sur l estimation du nombre de pages Plusieurs méthodes : marches aléatoires, etc Via les moteurs de recherche / index (cf. Netcraft) Nombre de pages indexées Yahoo! Annonce 20 M en 2005? 16

Croissance du web http://news.netcraft.com/archives/web_server_survey.html Total Sites Across All Domains August 1995 - January 2008 17

Structure globale du Web Connexions Loi de puissance Le nombre de pages web de in-degree (liens entrants) i est proportionnel à 1/i k avec k = 2.1 18

Bow-Tie shape of the web Trois grandes catégories de pages web In, Out, SCC qui se distinguent par les possibilités de navigation Navigation par hyperliens In SCC SCC Out SCC SCC From Manning et al. 2007 19

En résumé Beaucoup de composants technologiques Modèles de recherche d information et d évaluation Robots d indexation Critères de qualité des pages Web Détection du spam Autorité Niveau de langue, de connaissances, etc. Personnalisation de la recherche Prise en compte du contexte Prise en compte de l individu Publicité Analyse des résultats (clics) 20

Crawlers Recherche Web

Robot d indexation (Crawler) Un programme qui Suit les hyperliens entre les documents Recharge les pages à intervalles réguliers 22

Problématiques Minimiser les resources : la bande passante utilisée Interrogation des mêmes sites Maximiser des critères de qualité la couverture Maximiser la fraîcheur Information structurée / dynamique (Web 2.0) 23

Spam Recherche Web

Spam sur le Web Référencement - Search Engine Optimization (SEO) Mettre en avant ses pages / son site dans les résultats des moteurs de recherche Motivations Diverses : commerciales, politiques, etc Devenu une industrie Les moteurs essaient de faire respecter des règles aux SEO Le SEO est une des motivations majeures pour le SPAM Guerre entre les spammers et les moteurs de recherche Adversial information retrieval 25

Keyword stuffing Bestiaire du Spam Modification du contenu Répétition de termes pour augmenter le tf-idf Variantes : meta-tags, texte caché (couleur du fond..), adresses url fréquement demandées, etc générateurs de texte : pipotrons, patchworks, générateurs markoviens Visait les 1ers moteurs de recherche (tf-idf), facilement détecté actuellement Cloaking e.g. dé-référencement de BMW par Google en 2006 Délivrer des informations différentes suivant l utilisateur (robot vs personne) Permet d indexer des pages avec des mots (robot) différents du contenu vu par l utilisateur humain Si la requête http provient d un crawler : servir un faux contenu (fausse indexation) Si la requête http provient du browser d un utilisateur servir du spam 26

Bestiaire du Spam Référencement Link farms Référencement mutuel de sites Développer un grand nombre de sites interconnectés qui pointent également sur des cibles dont on fait remonter le pagerank Honey pot Réplication de sites ou annuaires très référencés le site sera ensuite référencé par d autres utilisateurs et augmentera son rang Blog ou wiki spam Faire pointer sur son site à partir de sites où l on peut écrire Clic spam Camouflage Doorway Épuiser le crédit de concurrents en faisant cliquer que les liens sponsorisés (pay per clic model) Faire référencer une page avec un bon score (choix de mots clé, des liens etc) L utilisateur qui demande la page est renvoyé sur d autres pages (commerciales etc) 27

Bestiaire du Spam Divers Parasitage recyclage de domaines expirés, cybersquatting pollution ou piratage de sites réputés fiables : blogs, forums, petites annonces Botnets, clickbots (ClickBot.A) Variantes Phishing obtenir des renseignements personnels pour une usurpation d'identité. Faire croire à la victime qu'elle s'adresse à un tiers de confiance banque, administration, etc. afin de lui soutirer des renseignements personnels : mot de passe, numéro de carte de crédit, date de naissance, etc. Cf mesure 2009 verification transactions par les banques (sms de confirmation) Social spam : générateurs d'amis 28

Spamdexing : ferme à liens (Projet Madspam, T. Urvoy, Orange Labs) Orange Labs - R&D méthodes automatiques pour la détection du spamdexing mars 2009 29

Spamdexing : ferme à liens 30

Spamdexing : ferme à liens Plus de 5000 pages ventilées sur des centaines de sites 31

Spam blogs 32

Incidence % de Web spam dans les 8 domaines les plus populaires sur le Web % de Web spam dans les 5 langues les plus populaires sur le Web Sur 100 millions de pages, globalement représentatives du Web [Ntoulas et al. 2006] 33

Spam Blogs (Société BlogSpirit) pourcentage de Spam - 2007 34

La lutte contre le Spam Editorial Blacklists, dénonciation (Google), http://www.google.com/contact/spamreport.html Usage Préférer les pages très utilisées, bien référencées Analyse de liens Guilt by association Algos robustes de référencement Machine learning Cf Adversial retrieval initiative : Airweb http://airweb.cse.lehigh.edu/ 35

Publicité Recherche Web

Publicité sur le Web Trois niveaux Cost per Mil (CPM) : nombre de fois où la bannière est affichée Ce que les moteurs de recherche aimerait faire payer Cost per Clic (CPC) : nombre de fois où la bannière est cliquée Ce que les moteurs de recherche font payer Cost Per Engagement (CPE) : nombre de fois où une Ce transaction que les clients de a moteurs été engagé de recherche aimeraient payer 37

Revenus générés http://www.dazeinfo.com/2013/10/17/u-s-internet-advertising-revenues-crossed-10-billion-q2-2013-report/ 38

Revenus générés http://www.dazeinfo.com/2013/10/17/u-s-internet-advertising-revenues-crossed-10-billion-q2-2013-report/ 39

Revenus générés https://www.techdirt.com/articles/20120916/14454920395/newspaper-ad-revenue-fell-off-quite-cliff-now-parwith-1950-revenue.shtml 40

Problématique Économique : Modèle = mises (par clic) Comment facturer les clients de façon à ce qu ils maximisent leurs mises? Recherche d information Trouver les publicités les plus pertinentes mais qui génèrent le plus de clic Estimation de l intérêt d une publicité 41

Principes Espace 1 Espace 2? p(clic question, annonceur) Annonceur 1: - mots clefs - budget / clic - budget restant Espace 3 Annonceur 2: - mots clefs - budget / clic - budget restant Requête + contexte 42

Analyse de liens - PageRank et Hits PageRank et Hits Recherche d'information textuelle