Recherche d information textuelle Recherche Web B. Piwowarski CNRS / LIP6 Université Paris 6 benjamin@bpiwowar.net http://www.bpiwowar.net Master IP - 2014-15 Cours et travaux pratiques basés sur les documents de P. Gallinari et S. Lamprier (LIP6)
Introduction Recherche Web Recherche d'information textuelle
Evolution des moteurs de recherche 1994 97 Excite, Lycos, etc Contenu 1998 Google, Yahoo Liens Click through Anchor text 2002 Pubs Multiplication des services Prise en compte contexte et utilisateur Autres sources d information Web 2.0, etc 3
RI Web vs RI classique Corpus Taille, Nature, Dynamicité Contexte Réseau, localisation, historique Individus Grande variabilité Prise en compte progressive des profils pour la recherche web 4
Individus Recherche Web Recherche d'information textuelle
Besoins d information Requêtes Loi de puissance peu de requêtes populaires Beaucoup de requêtes rares Taille moyenne requêtes < 3 mots 1998, moyenne 2.35 2001 moyenne 2.54 Besoins d information dynamiques Utilisation pauvre du langage de requête 6
Besoins d information Besoin Transactionnel Achats en ligne Acceder à une ressource Musique, livre, réservation avions hotels, Météo, Google-Maps, downloads, Informationnel Consultation Se renseigner sur un sujet Navigation Joindre une page donnée Interaction Recall souvent peu important, precision mise en avant 7
Individus - exemple http://www.iprospect.com/premiumpdfs/whitepaper_2006_searchengineuserbehavior.pdf 8
Google Trends - Le buzz du moment : expressions à la plus forte progression Recherche d'information textuelle 9
Les statistiques de Google Trends Recherche d'information textuelle 10
Flu Trends 11
Individus Recherche Web Recherche d'information textuelle
Le Web Croissance désordonnée Pas de coordination Nature des informations Contient des informations obsoletes, mensongères, etc Texte, html, images, structuré (XML), BD, Statique vs dynamique Le web dynamique n est pas indexé Quelques travaux Web caché 1 ou 2 facteurs d echelles plus gros que le web visible? Multilingue Difficulté des analyses lexicales 13
Go-globe.com (juin 2011) 14
Taille du Web indexé par Google 15
Le Web Forte croissance Double tous les mois (!!check) La taille du web réel n est pas connue Qu est ce qui est mesuré Nombre d hôtes Nombres de pages statiques Etudes sur l estimation du nombre de pages Plusieurs méthodes : marches aléatoires, etc Via les moteurs de recherche / index (cf. Netcraft) Nombre de pages indexées Yahoo! Annonce 20 M en 2005? 16
Croissance du web http://news.netcraft.com/archives/web_server_survey.html Total Sites Across All Domains August 1995 - January 2008 17
Structure globale du Web Connexions Loi de puissance Le nombre de pages web de in-degree (liens entrants) i est proportionnel à 1/i k avec k = 2.1 18
Bow-Tie shape of the web Trois grandes catégories de pages web In, Out, SCC qui se distinguent par les possibilités de navigation Navigation par hyperliens In SCC SCC Out SCC SCC From Manning et al. 2007 19
En résumé Beaucoup de composants technologiques Modèles de recherche d information et d évaluation Robots d indexation Critères de qualité des pages Web Détection du spam Autorité Niveau de langue, de connaissances, etc. Personnalisation de la recherche Prise en compte du contexte Prise en compte de l individu Publicité Analyse des résultats (clics) 20
Crawlers Recherche Web
Robot d indexation (Crawler) Un programme qui Suit les hyperliens entre les documents Recharge les pages à intervalles réguliers 22
Problématiques Minimiser les resources : la bande passante utilisée Interrogation des mêmes sites Maximiser des critères de qualité la couverture Maximiser la fraîcheur Information structurée / dynamique (Web 2.0) 23
Spam Recherche Web
Spam sur le Web Référencement - Search Engine Optimization (SEO) Mettre en avant ses pages / son site dans les résultats des moteurs de recherche Motivations Diverses : commerciales, politiques, etc Devenu une industrie Les moteurs essaient de faire respecter des règles aux SEO Le SEO est une des motivations majeures pour le SPAM Guerre entre les spammers et les moteurs de recherche Adversial information retrieval 25
Keyword stuffing Bestiaire du Spam Modification du contenu Répétition de termes pour augmenter le tf-idf Variantes : meta-tags, texte caché (couleur du fond..), adresses url fréquement demandées, etc générateurs de texte : pipotrons, patchworks, générateurs markoviens Visait les 1ers moteurs de recherche (tf-idf), facilement détecté actuellement Cloaking e.g. dé-référencement de BMW par Google en 2006 Délivrer des informations différentes suivant l utilisateur (robot vs personne) Permet d indexer des pages avec des mots (robot) différents du contenu vu par l utilisateur humain Si la requête http provient d un crawler : servir un faux contenu (fausse indexation) Si la requête http provient du browser d un utilisateur servir du spam 26
Bestiaire du Spam Référencement Link farms Référencement mutuel de sites Développer un grand nombre de sites interconnectés qui pointent également sur des cibles dont on fait remonter le pagerank Honey pot Réplication de sites ou annuaires très référencés le site sera ensuite référencé par d autres utilisateurs et augmentera son rang Blog ou wiki spam Faire pointer sur son site à partir de sites où l on peut écrire Clic spam Camouflage Doorway Épuiser le crédit de concurrents en faisant cliquer que les liens sponsorisés (pay per clic model) Faire référencer une page avec un bon score (choix de mots clé, des liens etc) L utilisateur qui demande la page est renvoyé sur d autres pages (commerciales etc) 27
Bestiaire du Spam Divers Parasitage recyclage de domaines expirés, cybersquatting pollution ou piratage de sites réputés fiables : blogs, forums, petites annonces Botnets, clickbots (ClickBot.A) Variantes Phishing obtenir des renseignements personnels pour une usurpation d'identité. Faire croire à la victime qu'elle s'adresse à un tiers de confiance banque, administration, etc. afin de lui soutirer des renseignements personnels : mot de passe, numéro de carte de crédit, date de naissance, etc. Cf mesure 2009 verification transactions par les banques (sms de confirmation) Social spam : générateurs d'amis 28
Spamdexing : ferme à liens (Projet Madspam, T. Urvoy, Orange Labs) Orange Labs - R&D méthodes automatiques pour la détection du spamdexing mars 2009 29
Spamdexing : ferme à liens 30
Spamdexing : ferme à liens Plus de 5000 pages ventilées sur des centaines de sites 31
Spam blogs 32
Incidence % de Web spam dans les 8 domaines les plus populaires sur le Web % de Web spam dans les 5 langues les plus populaires sur le Web Sur 100 millions de pages, globalement représentatives du Web [Ntoulas et al. 2006] 33
Spam Blogs (Société BlogSpirit) pourcentage de Spam - 2007 34
La lutte contre le Spam Editorial Blacklists, dénonciation (Google), http://www.google.com/contact/spamreport.html Usage Préférer les pages très utilisées, bien référencées Analyse de liens Guilt by association Algos robustes de référencement Machine learning Cf Adversial retrieval initiative : Airweb http://airweb.cse.lehigh.edu/ 35
Publicité Recherche Web
Publicité sur le Web Trois niveaux Cost per Mil (CPM) : nombre de fois où la bannière est affichée Ce que les moteurs de recherche aimerait faire payer Cost per Clic (CPC) : nombre de fois où la bannière est cliquée Ce que les moteurs de recherche font payer Cost Per Engagement (CPE) : nombre de fois où une Ce transaction que les clients de a moteurs été engagé de recherche aimeraient payer 37
Revenus générés http://www.dazeinfo.com/2013/10/17/u-s-internet-advertising-revenues-crossed-10-billion-q2-2013-report/ 38
Revenus générés http://www.dazeinfo.com/2013/10/17/u-s-internet-advertising-revenues-crossed-10-billion-q2-2013-report/ 39
Revenus générés https://www.techdirt.com/articles/20120916/14454920395/newspaper-ad-revenue-fell-off-quite-cliff-now-parwith-1950-revenue.shtml 40
Problématique Économique : Modèle = mises (par clic) Comment facturer les clients de façon à ce qu ils maximisent leurs mises? Recherche d information Trouver les publicités les plus pertinentes mais qui génèrent le plus de clic Estimation de l intérêt d une publicité 41
Principes Espace 1 Espace 2? p(clic question, annonceur) Annonceur 1: - mots clefs - budget / clic - budget restant Espace 3 Annonceur 2: - mots clefs - budget / clic - budget restant Requête + contexte 42
Analyse de liens - PageRank et Hits PageRank et Hits Recherche d'information textuelle