Notes de cours Moteurs de recherche : Master 2 Pro, Université Paris Diderot



Documents pareils
Le théorème de Perron-Frobenius, les chaines de Markov et un célèbre moteur de recherche

Web Science. Master 1 IFI. Andrea G. B. Tettamanzi. Université de Nice Sophia Antipolis Département Informatique andrea.tettamanzi@unice.

Evaluation et analyse de la fréquentation d un site

Chaînes de Markov au lycée

Pourquoi une stratégie de sites dédiés? Laurent-Pierre GILLIARD AEC 14/06/2007 Vincent MOREAU SYSTONIC 09/06/2006

demander pourquoi mon site n'apparaît pas sur google ou pourquoi mon site n'est pas référencé par les moteurs de recherche?

SEO On-page. Avez-vous mis toutes les chances de votre côté pour le référencement de votre site?

Recherche d information textuelle

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Référencement Vendredi 4 Juillet Ile Degaby

Exercices Corrigés Premières notions sur les espaces vectoriels

Architecture des Systèmes d Information Architecture des Systèmes d Information

Référencement & Positionnement

Référencement naturel

SEO Campus 2009 : Pagerank et optimisation

Recherche d Information(RI): Fondements et illustration avec Apache Lucene. par Majirus

Kaizen Marketing Group Web Agency. Kaizen Marketing. - Stéphanie Héline-

Chapitre 5 : Flot maximal dans un graphe

Modèles à Événements Discrets. Réseaux de Petri Stochastiques

Introduction. M2206 Intégration web. Introduction. Introduction 20/01/2014

Référencement naturel & E-tourisme. Pau 02/10/2008

Jeudi 30 avril L art de bien référencer son site Internet

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

COMMENT FONCTIONNE GOOGLE?

Jeudi 10 avril 2014 Analyse et Référencement

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

L introduction à la thèse

Recherche et Diffusion de l Information dans les Réseaux. Philippe Robert. Le 8 avril 2014

Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé

E-Commerce à Orthez E-Commerce : Se lancer - Générer des commandes - Se positionner : Explications et témoignages Orthez 15 mai 2008

Bases de données documentaires et distribuées Cours NFE04

!" #$%&'(&)'*'+,--./&0'1&23,+2.)$4$%52'&%'6.%&2'

1 Avant-Propos 5 Remerciements. 9 Usages, contraintes et opportunités du mobile. 33 Site ou application : quelle solution choisir? Table des matières

Exo7. Matrice d une application linéaire. Corrections d Arnaud Bodin.

Intégration de la dimension sémantique dans les réseaux sociaux

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

La recherche d'information sur Internet

Principes d AdWords. Quelques mots de présentation. Une audience large : les réseaux de ciblage. Réseau de recherche

I.1 Introduction. I.2 La recherche d information. I.2.1 Définitions

SOMMAIRE. 1. Comprendre les bases - référencement, indexation et positionnement - comment fonctionne Google pour indexer et référencer un site?

Cours de Recherche Opérationnelle IUT d Orsay. Nicolas M. THIÉRY. address: Nicolas.Thiery@u-psud.fr URL:

Résolution de systèmes linéaires par des méthodes directes

Introduction à MATLAB R

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

Calculer avec Sage. Revision : 417 du 1 er juillet 2010

Les Bases. Messaoudi Khaled, Boukelal Hanane (Etudiants Informatique ) 2015.

Image d un intervalle par une fonction continue

Première partie. Préliminaires : noyaux itérés. MPSI B 6 juin 2015

COMMENT OPTIMISER SON RÉFÉRENCEMENT NATUREL?

Atelier E-TOURISME Optimiser la visibilité de son site sur les moteurs de recherche. ecotourismepro.jimdo.com

Algorithmes de Transmission et de Recherche de l Information dans les Réseaux de Communication. Philippe Robert INRIA Paris-Rocquencourt

Détection d utilisateurs malveillants dans les réseaux sociaux

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes.

LE REFERENCEMENT NATUREL D UN SITE WEB1

AGENCE WEB 360 acteur du web depuis 8 ans en collaboration avec ses partenaires, déploie son. offre SEO

Le référencement naturel

VIS MA VIE D EXPERT COMPTABLE. Comment sortir la tête de l eau?

Introduction aux algorithmes MapReduce. Mathieu Dumoulin (GRAAL), 14 Février 2014

De l Encyclopédie aux moteurs de recherche

INF6304 Interfaces Intelligentes

WEBSEMINAIRE INTRODUCTION AU REFERENCEMENT

COMMENT AMÉLIORER LA VISIBILITÉ DE SON SITE WEB?

Programmation linéaire et Optimisation. Didier Smets

Le référencement de mon site

Programmation linéaire

Ecrire pour le web. Rédiger : simple, concis, structuré. Faire (plus) court. L essentiel d abord. Alléger le style. Varier les types de contenus

COMMENT AMELIORER LA VISIBILITE DE SON SITE WEB?

Comment générer des revenus en Affiliation

BIEN NAVIGUER SUR INTERNET. 2. Les moteurs de recherche. Ligue Libérale des Pensionnés asbl

Référencement & Positionnement sur le WEB

TP1 Méthodes de Monte Carlo et techniques de réduction de variance, application au pricing d options

Réussir. son. référencement. web. Olivier Andrieu. Groupe Eyrolles, 2008, ISBN :

Ou comment devenir visible sur la toile

16 septembre Lundi de l Economie l. rencement. Foix. CCI Ariège

Partie II Approche théorique

Résolution d équations non linéaires

1.1 Des concepts et termes techniques à maîtriser La formule magique du référencement Tricher ou non en référencement

Référencement de votre site Web Google et autres moteurs de recherche (4ième édition)

Fonctions de plusieurs variables

Big Data et Graphes : Quelques pistes de recherche

DUT GEA. Informatique D après le document de Laurent GILI / Lycée Prévert

Jalons pour l histoire du temps présent 17 mars 2006, réf. : Durée : 02 mn 24

INTRODUCTION AU DATA MINING

Découverte du logiciel ordinateur TI-n spire / TI-n spire CAS

Jean-Philippe Préaux

Mesurer le retour sur investissement

Constituer des profils d'experts scientifiques, de centres de recherche et d entreprises innovantes

Dopez votre présence en ligne grâce aux Médias Sociaux

La NP-complétude. Johanne Cohen. PRISM/CNRS, Versailles, France.

Jeudi 20 Octobre. 17h30 19h30 Hôtel «Les Bartavelles» à EMBRUN. «Quel est le juste prix pour un site Internet rentable»

Trends. Médias sociaux et SEO - la force du contenu

Exo7. Calculs de déterminants. Fiche corrigée par Arnaud Bodin. Exercice 1 Calculer les déterminants des matrices suivantes : Exercice 2.

Info0804. Cours 6. Optimisation combinatoire : Applications et compléments

Formations Web. Catalogue 2014 Internet Référencement Newsletter Réseaux sociaux Smartphone

LES DECIMALES DE π BERNARD EGGER

Projet en nouvelles technologies de l information et de la communication

Europresse.com. Pour bibliothèque d enseignement Pour bibliothèque publique. Consulter facilement la presse. Guide version 1.

La classification automatique de données quantitatives

Transcription:

Notes de cours Moteurs de recherche : Master 2 Pro, Université Paris Diderot Michel Habib and Antoine Meyer 22 janvier 2009 1 Introduction Ce document a été rédigé à partir des trois mémoires de thèses : [6, 1, 2] et de l ouvrage [5]. 1 Définition 1 Le Graphe du Web est le graphe orienté dont les sommets sont les pages html et les arcs sont les liens hypertextes. Notons G = (X, U) ce graphe. Il a été beaucoup écrit sur la structure de ce graphe, pas toujours très sérieusement (cf. la fameuse structure en noeud papillon de ce graphe), néanmoins nous devons constater que même si le nombre de sommets est énorme (plusieurs milliards) le graphe est peu dense. En fait une page contient peu de liens hypertextes. Cela veut dire que les degrés sortants d un sommet sont bornés (d + (x) = le nombre de pages référencées par la page x), mais par contre les degrés entrants (d + (x) = le nombre de pages pointant sur la page x) ne le sont évidemment pas. La matrice d incidence du graphe est dite creuse, et U O( X ). On dit que les degrés entrants vérifient une loi de puissance (i.e. la probabilité qu un sommet soit de degré entrant k est en 1, où α est une constante). k α Il aurait été mesuré que α = 2, 5. Ceci signifie que les sommets dont le degré entrant est important sont peu nombreux. 1. Merci de nous faire part de toute remarque, concernant ce texte, erreurs, passages trop rapides... 1

1 INTRODUCTION 2 En outre ce graphe est dynamique et on ne peut travailler que sur des extraits de ce graphe calculé par des "crawlers", avec éventuellement un biais important [1]. Le fonctionnement d un moteur de recherche actuel est grossièrement le suivant : Données : une chaîne de caractères 1. Extraire des mots clés (analyse syntaxique de la phrase) 2. Trouver toutes les pages de la base de données qui contiennent ces mots clés. 3. Extraire et classer les pages les plus pertinentes. Réponse Une liste ordonnées d URL. Bien souvent pour une requête donnée il y a des centaines de pages (voire des centaines de milliers) qui contiennent cette chaîne de caractères. Il s agit alors de trier, d ordonner ces réponses possibles afin de mettre les plus "pertinentes" en tête de liste. Pour ce faire il existe de nombreuses techniques, souvent les tris sont multi-critères et la démarche globale est heuristique (il est possible d utiliser le nom de domaine de la machine qui a posé la requête, un profil de l utilisateur, voire de trier les réponses en fonction des redevances percues...). Afin d ordonner les réponses, plusieurs auteurs ont eu l idée de tirer parti de la structure du graphe du Web indépendamment des contenus des pages. On peut fabriquer le néologisme syntagraphiquement. En s inspirant des théories développées par les sociologues sur les calculs des indices de citations scientifiques, on peut interpréter un lien A B, entre deux pages Web A, B comme A "vote" pour B, et en déduire des mesures de popularité. Plus précisement, Il s agit d associer à chaque page un score qui vérifie les règles suivantes : Selon PageRank, d après S. Brin, L. Page les fondateurs de Google et R. Motvani, T. Winograd 1999 [3]. 2 Chaque page est d autant plus importante qu elle est référencée par d autres pages importantes. 2. PageRank est un jeu de mots sur les pages du Web et le nom de L. Page

2 CALCULS EFFECTIFS DE RANGS 3 Selon Hits, d après J. Kleinberg [4] Une page mérite un haut score d annuaire (en anglais hub) si elle référence des pages ayant un haut score d autorité et un mérite un haut score d autorité si elle est référencée par des pages ayant un haut score d annuaire. Ces deux définitions sont circulaires, mais c est justement ce qui va permettre de faire un calcul efficace en termes de points fixes d un calcul matriciel. 2 Calculs effectifs de rangs Nous allons tout d abord proposer une formalisation mathématique de l idée de PageRank. Supposons que que la répartition se fasse linéairement sur les arcs du graphe (une sorte de flot traversant le graphe) et si l on note R n (p) la valeur du Pagerank de la page p à l étape n du processus, et R n+1 (p, q) la quantité qui passe sur l arc pq entre les étapes n et n+1 l on obtient l équation : R n+1 (p) = Σ q p R n+1 (q, p) où q p signifie arc de la page q vers la page p. Il est possible de faire l hypothèse que la répartiton se fasse équitablement sur les différents liens sortant d une page q. Ce qui permet d exprimer R n+1 (q, p) comme suit : R n+1 (q, p) = Rn(q) pour chaque arc q p. degre(q) On obtient donc : R R n+1 (p) = Σ n(q) q p degre(q) Vectoriellement cette équation peut s écrire : R n+1 = A T R n où A est une sorte de matrice d incidence du graphe du Web vérifiant : A[i, j] = 1 si l arc ij existe et 0 sinon. degre(i) Lorsque la suite R n converge, elle le fait vers le vecteur propre associé à la valeur propre 1 de la matrice A T. La plupart des calculs de PageRank procèdent de manière itérative à partir d un vecteur initial R 0. En général R 0 (p) =, ce qui revient 1 # total de pages à répartir de manière équitable sur toutes les pages.

3 LES DONNÉES 4 3 Les données Même si l on veut classer les pages à l aide d une mesure simple telle que le degré entrant d un sommet (d (p)), cette donnée n est accessible qu à l aide d un parcours entier du graphe du Web. Car la seule manière de découvrir les liens existants c est de lire l ensemble des pages, i.e. déployer un "crawl" ou chalutage sur l ensemble du Web, avec toutes les difficultés techniques associées et tous les problèmes de distorsion de modèle [1]. Ainsi la difficulté est la même pour calculer d (p) pour une page p donnée que de calculer la matrice A du graphe du Web en entier. Cette difficulté se retrouve si l on veut calculer une communauté associée à une page p. Les moteurs de recherche maintiennent un crawl permanent sur le Web et périodiquement mettent à jour leur classement (pour Google le rythme est mensuel). 4 Le classement ne fait pas tout Un moteur de recherche fonctionne à l aide d une table inversée précalculée qui associe à chaque mot clé la liste ordonnée (suivant PageRank?) des pages "associées" à ce mot clé. Le traitement d une requête contenant plusieurs mots clés, revient alors à faire des intersections de listes ordonnées. Revenons sur cette méthode d association. 1. le mot est dans le titre de la page, 2. le mot figure x fois dans la zone Meta de description du contenu de la page, 3. Le mot figure x fois dans la page, L importance des mots figurant dans le titre de la page est testable par la requête : French Military Victories pour laquelle Google répond en première ligne une page dont c est exactement le titre. Mais il semble que dans Google intervienne aussi le fait que le mot figure dans le chemin d accès au fichier de la page html.

5 LE MODÈLE ÉCONOMIQUE D UN MOTEUR DE RECHERCHE 5 Plus étonnant encore, Google utilise les textes des balises des pages qui pointent la page p pour indexer cette page. Ceci est révélé par le phénomène du Google bombing. En effet il suffit que quelques pages pointent sur la page Web, biographie officielle de G.W. Bush avec pour balise : "Miserable Failure" pour qu à la requête : Miserable Failure, Google réponde en 1ère position la page officielle de G.W. Bush. À ma connaissance cette page ne contient pas l item Miserable Failure! Parmi les autres bombes célèbres on trouve : N. Sarkozy versus Iznogood Ministre Blanchisseur versus Renaud Donnedieu de Vabres... Il n est pas facile de gérer ce problème syntagraphiquement, car dans la plupart des cas le texte de la balise qui réfère une page est pertinent. La réponse de Google est éloquente sur ce sujet qui persiste depuis 2001. "Nous ne ferons pas de traitement manuel des liens. Après tout si des sites réfèrent la page officielle de G.W. Bush avec pour balise : "Miserable Failure", nous nous devons d en tenir compte!" En janvier 2007, le discours officiel a changé chez Google par l annonce d une méthode algorithmique de détection des bombes. Effectivement "Miserable Failure" ne permet plus de retrouver la biographie officielle de G.W. Bush. Cependant la requête Nicolas Sarkozy retourne toujours la page du film Iznogood! On peut légitimement se poser des questions sur l existence d un tel algorithme général, et se demander si les modifications n ont pas été faites à la main? Ces bombes sont à retardement (au mieux 1 mois) et sont très difficiles à effacer. 5 Le modèle économique d un moteur de recherche On peut actuellement distinguer 4 sources déclarées de financement d un moteur de recherche en prenant pour exemple Google : 1. Indexation rapide de pages (un à deux jours) au lieu du mois normal. 2. Vente des résultats de requêtes aux entreprises, c est gratuit pour les autres. 3. Publicité, liens payants (affichage dans la colonne de droite)

6 SPAM VERSUS ANTISPAM 6 Avec paiement au click (cost-per-click) (système assez dangereux, car il est possible de nuire à l entreprise par ce biais à l aide d un programme). 4. Revente de profils et de logs des utilisateurs aux entreprises. Faut-il interpréter dans ce contexte, l embauche récente de salariés de la NSA par Google? 6 Spam versus antispam Spam indexing : référencement abusif. Pour une fois la traduction est correcte. Cela fait penser à la lutte millénaire entre cryptanalystes et cryptographes. À chaque avancée algorithmique des moteurs de recherche pour la détection automatique des spams, correspond une évolution dans la technologie des spams. Citons pour mémoire quelques étapes de cette lutte. Le but premier c est d accroître par tous les moyens le référencement d une page. On peut le faire par ajout de mots clés du genre : MP3, Sexe,..., n ayant rien à voir avec le contenu de la page en question. Ces mots peuvent être placés dans la partie description d une page (i.e. non affichés), mais aussi dans la page elle-même à condition qu il ne soient pas lisibles (par exemple de la couleur du fond d écran). Bien entendu ces procédés sont détectables et détectés algorithmiquement. C est ainsi qu une nouvelle génération de pages construites comme suit : lors de leur lecture, le type du lecteur est détecté (robot de crawl ou navigateur) et suivant les cas ce n est pas la même page qui est envoyée. 7 Améliorer son score Afin d améliorer la valeur de PageRank d une page p, en utilisant le principe de l algorithme, il faut augmenter le nombre de pages qui pointent sur p. Pour ce faire, il suffit de construire un ensemble de pages qui s autoréférencent : on parle de "ferme de liens", ou de faire des référencement réciproques avec d autres pages. On peut aussi s insérer automatiquement dans les forums des blogs en y référencant la page p.

8 PROBLÈMES TOUJOURS D ACTUALITÉ 7 On assiste donc à une bataille entre programmes, car il est très facile de construire des fausses pages qui ont l air d une vraie (générateur aléatoire de texte grammaticalement correct ou carrément récupération de morceaux de textes de pages ayant un fort coefficient d autorité). Et pourquoi pas, calculer pour chaque page un score de SPAM (ou spamrank), en tenant compte de l idée suivante : Chaque page est d autant plus une page de SPAM qu elle est référencée par d autres pages SPAM. 8 Problèmes toujours d actualité 1. Comment détecter les bombes? 2. Comment détecter syntagraphiquement une page dite de "spam". 9 Fouille de graphes C est un sujet récent en anglais Graph Mining qui consiste en la recherche de motifs (i.e. des graphes particuliers) dans des réseaux de communication. La première application est celle de la détection de communautés dans un réseau. Pour ce faire on peut utiliser l un des paradigmes suivants : Notion de rôles développées dans le cadre des réseaux sociaux. Partitionner le graphe en parties possédant de nombreux liens internes et relativement peu entre deux parties distinctes. Ce problème est l un des problèmes classiques de l optimisation combinatoire (i.e. lorsqu on recherche le partitionnement optimal, le problème devient NP-difficile et nombreuses heuristiques sont disponibles). Rechercher des bipartis presque complets. Utiliser un modèle particulaire. D autres applications recherchent des motifs particuliers, par exemple lors de catégorisation d usagers des communications. Références [1] T. Bennouas. Modélisation de parcours du WEB et calcul de communautés par émergence. PhD thesis, Université Montpellier II, 2005.

RÉFÉRENCES 8 [2] M. Bouklit. Autour du graphe du WEB : Modélisations probabilistes de l internaute et détection de structures de communautés. PhD thesis, Université Montpellier II, 2006. [3] S. Brin, L. Page, R. Motwani, and T. Winograd. The pagerank citation ranking : bringing an order to the web. Technical report 1999-0120 Computer Science Dept. Stanford, 1999. [4] J. Kleinberg. Authoritative sources in a hyperlinked environment. J. of ACM, 1999. [5] A.N. Langville and C.D. Meyer. Google s PageRank and Beyond. Princeton University press, 2006. [6] F. Mathieu. Graphes du Web, mesures d importance à la PageRank. PhD thesis, Université Montpellier II, 2004.