Modélisations Mathématiques. Google PageRank et Chaîne de Markov. PHAN Tran Thanh Du

Documents pareils
Chapitre 3 : Transistor bipolaire à jonction

UNIVERSITE MONTESQUIEU BORDEAUX IV. Année universitaire Semestre 2. Prévisions Financières. Travaux Dirigés - Séances n 4

Dénombrement. Chapitre Enoncés des exercices

Deuxième partie : LES CONTRATS D ASSURANCE VIE CLASSIQUES

TRANSFERT DE CHARGE DANS UN RÉSEAU DE PROCESSEURS TOTALEMENT CONNECTÉS (*) par Maryse BÉGUIN ( 1 )

Polynésie Septembre Exercice On peut traiter la question 4 sans avoir traité les questions précédentes.

55 - EXEMPLES D UTILISATION DU TABLEUR.

2 ième partie : MATHÉMATIQUES FINANCIÈRES

Chap. 6 : Les principaux crédits de trésorerie et leur comptabilisation

Statistique descriptive bidimensionnelle

Limites des Suites numériques

. (b) Si (u n ) est une suite géométrique de raison q, q 1, on obtient : N N, S N = 1 qn+1. n+1 1 S N = 1 1

Processus et martingales en temps continu

Chap. 6 : Les principaux crédits de trésorerie et leur comptabilisation

STATISTIQUE : TESTS D HYPOTHESES

Chap. 5 : Les intérêts (Les calculs financiers)

Comportement d'une suite

Donnez de la liberté à vos données. BiBOARD.

14 Chapitre 14. Théorème du point fixe

RECHERCHE DE CLIENTS simplifiée

SÉRIES STATISTIQUES À DEUX VARIABLES

LES ÉCLIPSES. Éclipser signifie «cacher». Vus depuis la Terre, deux corps célestes peuvent être éclipsés : la Lune et le Soleil.

Etude Spéciale SCORING : UN GRAND PAS EN AVANT POUR LE MICROCRÉDIT?

PROMENADE ALÉATOIRE : Chaînes de Markov et martingales

Consolidation. C r é e r un nouveau classeur. Créer un groupe de travail. Saisir des données dans un groupe

FEUILLE D EXERCICES 17 - PROBABILITÉS SUR UN UNIVERS FINI

Intégration et probabilités ENS Paris, TD (20)13 Lois des grands nombres, théorème central limite. Corrigé :

Les Nombres Parfaits.

Statistiques appliquées à la gestion Cours d analyse de donnés Master 1

EXERCICES : DÉNOMBREMENT

1 Mesure et intégrale

STATISTIQUE AVANCÉE : MÉTHODES

Initiation à l analyse factorielle des correspondances

Sommaire Chapitre 1 - L interface de Windows 7 9

Chaînes de Markov. Arthur Charpentier

Convergences 2/2 - le théorème du point fixe - Page 1 sur 9

Chapitre 3 : Fonctions d une variable réelle (1)

capital en fin d'année 1 C 0 + T C 0 = C 0 (1 + T) = C 0 r en posant r = 1 + T 2 C 0 r + C 0 r T = C 0 r (1 + T) = C 0 r 2 3 C 0 r 3...

Dénombrement. Introduction. 1 Cardinaux d'ensembles nis. ECE3 Lycée Carnot. 12 novembre Quelques dénitions

LE WMS EXPERT DE LA SUPPLY CHAIN DE DÉTAIL

La France, à l écoute des entreprises innovantes, propose le meilleur crédit d impôt recherche d Europe

La maladie rénale chronique

Université Victor Segalen Bordeaux 2 Institut de Santé Publique, d Épidémiologie et de Développement (ISPED) Campus Numérique SEME

Comment les Canadiens classent-ils leur système de soins de santé?

S-PENSION. Constituez-vous un capital retraite complémentaire pour demain tout en bénéficiant d avantages fiscaux dès aujourd hui.

Examen final pour Conseiller financier / conseillère financière avec brevet fédéral. Recueil de formules. Auteur: Iwan Brot

3.1 Différences entre ESX 3.5 et ESXi 3.5 au niveau du réseau. Solution Cette section récapitule les différences entre les deux versions.

Compte Sélect Banque Manuvie Guide du débutant

20. Algorithmique & Mathématiques

Guide du suivi et de l évaluation axés sur les résultats P ROGRAMME DES NATIONS UNIES POUR LE DÉVELOPPEMENT B U R E AU DE L É VA L UATION

Échantillonnage et estimation

Mécanismes de protection contre les vers

CPNEFP Commission Paritaire Nationale pour l'emploi et la Formation Professionnelle de la branche des services funéraires

Renseignements et monitoring. Renseignements commerciaux et de solvabilité sur les entreprises et les particuliers.

Les solutions mi-hypothécaires, mi-bancaires de Manuvie. Guide du conseiller

CHAPITRE 2 SÉRIES ENTIÈRES

Séquence 5. La fonction logarithme népérien. Sommaire

Université de Bordeaux - Master MIMSE - 2ème année. Scoring. Marie Chavent machaven/

4 Approximation des fonctions

x +1 + ln. Donner la valeur exacte affichée par cet algorithme lorsque l utilisateur entre la valeur n =3.

Groupe orthogonal d'un espace vectoriel euclidien de dimension 2, de dimension 3

Simulations interactives de convertisseurs en électronique de puissance

Mobile Business. Communiquez efficacement avec vos relations commerciales 09/2012

II LES PROPRIETES DES ESTIMATEURS MCO 1. Rappel : M1 LA REGRESSION : HYPOTHESES ET TESTS Avril 2009

Chapitre 2 SONDAGE ALEATOIRE SIMPLE OU A PROBABILITES EGALES. 2.1 DEFINITIONS 2.2 SONDAGE ALEATOIRE SIMPLE SANS REMISE (PESR) 2.2.

Baccalauréat S Asie 19 juin 2014 Corrigé

c. Calcul pour une évolution d une proportion entre deux années non consécutives

Formation d un ester à partir d un acide et d un alcool

Principes et Méthodes Statistiques

UNIVERSITÉ DE SFAX École Supérieure de Commerce

Neolane Message Center. Neolane v6.0

Les études. Recommandations applicables aux appareils de levage "anciens" dans les ports. Guide Technique

Réseaux d ondelettes et réseaux de neurones pour la modélisation statique et dynamique de processus

Le marché du café peut être segmenté en fonction de deux modes de production principaux : la torréfaction et la fabrication de café soluble.

Dares Analyses. Plus d un tiers des CDI sont rompus avant un an

Ouverture à la concurrence du transport ferroviaire de voyageurs

Cours 5 : ESTIMATION PONCTUELLE

Logiciel de synchronisation de flotte de baladeurs MP3 / MP4 ou tablettes Androïd

PROBLEMES DIOPTIMISATION EN NOMBRES ENTIERS J. L. NICOLAS

La fibre optique arrive chez vous Devenez acteur de la révolution numérique

Gérer les applications

DETERMINANTS. a b et a'

Création et développement d une fonction audit interne*

Cours de Statistiques inférentielles

Mieux informé sur les maux de tête et la migraine

Lorsque la sécurisation des paiements par carte bancaire sur Internet conduit à une concurrence entre les banques et les opérateurs de réseau

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable

Institut de démographie

Statistique Numérique et Analyse des Données

[ édité le 10 juillet 2014 Enoncés 1. Exercice 6 [ ] [correction] Si n est un entier 2, le rationnel H n =

Etude de la fonction ζ de Riemann

One Office Voice Pack Vos appels fixes et mobiles en un seul pack

Les algorithmes de tri

Guide des logiciels de l ordinateur HP Media Center

Modèles à Événements Discrets. Réseaux de Petri Stochastiques

Assurer la délivrabilité d'une plateforme d' ing. Neolane v6.0

Neolane Leads. Neolane v6.0

Transcription:

Modélisatios Mathématiques Google PageRak et Chaîe de Markov PHAN Tra Thah Du École Natioale Supérieure de Cogitique Istitut Polytechique de Bordeaux 2 décembre 205

Table des matières Itroductio 2 2 PageRak 2 Exemple Gamig the system! 8

Itroductio Avec milliard de sites sur iteret, c est impossible à aalyser leurs coteus. Pourtat, l iteret est pas ue collectio de textes idépedats mais u immese hypertexte : les pages se citet mutuellemet. E cosidérat le web comme u graphe et e teat compte les lies etre les pages, o peut faire des choses itéressates. Les premières persoes qui ot abordé ce poit de vue étaiet Larry Page et Sergey Bri, fodateurs de Google, avec leur algorithme PageRak. Depuis sa coceptio e 998, Google domie le marché des moteurs de recherche sur iteret. as plus tard, leurs techiques ot déja beaucoup évolué, les résultats de recherche devieet de plus e plus pertiets, mais l idée pricipale est toujours basée sur l algorithme de classer PageRak. Das cet article, o va examier de plus près cet algorithme et le lie avec la chaîe de Markov. 2 PageRak PageRak utilise ue foctio qui assige ue valeur à chaque page sur iteret. Plus la valeur est élevée, plus la page est importate. PageRak est u algorithme qui est idépedat de la requête et du coteu. L idépedace de la requête veux dire que le classemet des sites est effectué hors-lige. E effet, chaque 0 jours, Google télécharge, idexe et classe tous les sites. Par coséquet, le classemet des résultats e déped pas de la requête. L idépedace du coteu est assez claire vu qu elle est abordée das la partie Itroductio : l algorithme PageRak utilise pas les coteus mais les lies pour classer les pages. Avat l époque de Google, il y avaiet déja plusieur moteurs de recherche. La majorité d etre eux classe les résultats e basat sur la fréquece dot le mot cherché est utilisé sur chaque site. Cela vite révélait des problèmes : si u site veut attirer des visiteurs, il faut juste spammer les mots-clés et le moteur de recherche va croire que c est u résultat vraimet pertiet. Les techiques pour berer les moteurs de recherche comme celle-ci sot appelées "term spam". Pour éviter ces fraudes, Larry Page et Sergey Bri ot crée PageRak avec 2 iovatios : PageRak simule d ue marche aléatoire d u visiteur, qui choisit par hasard u lie sur la page actuelle pour passer à la prochaie page. Ce processus se répète plusieurs fois et les auteurs raisoet que les pages sur lesquels l utilisateur passe plus de temps sot plus importat que ceux que l utilisateur visite raremet. 2

L importace d ue page déped de l importace des pages qui etraiet à celle-ci. Alors même si quelqu u a crée 000 pages fausses coteat des lies à la page pricipale, le rag PageRak de cette page pricipale est pas beaucoup amélioré parce que ces 000 pages fausses sot pas "importates". À ce momet là, Page et Bri ot pas ecore abordé le terme "Markov" das leur article, mais o peut remarquer facilemet que la modélisatio de la marche aléatoire est ue chaie de Markov. Ecore plus itéressat, la probabilité statioaire d ue chaie de Markov ous doe ue idée de la proportio de temps que X va passer à chaque état e log terme. Alors si la chaie coverge vers sa probabilité statioaire, sa probabilité limite est effectivemt le rag PageRak cherché. E d autre termes, l algorithme PageRak calcule le rag de chaque site e cherchat la probabilité statioaire uique de la chaie de Markov. Mais la vie est pas si simple. O e peut pas assurer que otre chaie de Markov coverge, ou qu il existe ue uique probabilité statioaire. C est souvet le cas pour u modèle de l iteret. Par exemple, c est très peu probable que les sites de Maths aiet des lies avec des sites de Sport (oui parce que les geeks e fot pas du sport...), et doc otre chaie de Markov a 2 classes fiaux, d où 2 probabilités statioaires. Afi de régler ce problème, Page et Bri essaiet de costruire ue chaie de Markov ergodique, ce qui va assurer l existece d ue uique probabilité statioaire, ce qui deviet dot le vecteur PageRak.

Exemple Pour illuster l algorithme de PageRak, o va predre u exemple cocret. Soit X la page que l utilisateur visite à l étape. X peut être modélisé par ue chaie de Markov car le choix de l utilisateur déped seulemet de la page actuelle. Supposat que otre "Iteret" est composé de pages, qui sot représetées comme les œuds. Les arêtes représetet les lies etre les pages. Etat sur ue page, u visiteur choisit aléatoiremeet u lie pour aller à ue autre page, alors les probabilités d aller d ue page aux autres sot égaux.

La matrice de trasitio est : 0 0 0 0 0 0 2 0 0 0 0 0 2 0 0 0 0 0 T = 0 0 0 0 0 0 0 0 0 0 2 0 0 0 0 0 2 0 0 0 0 0 O observe qu il existe 2 états absorbates : et. La chaie est pas ergodique, elle possède 2 probabilités statioaires et doc elle e coverge pas vers ue probabilité uique. Pour éviter cette situatio, Page et Bri ot fait ue hypothèse : Ue fois que le visiteur tombe sur ue page "fiale" (ie. pas de lie pour s e sortir), il va aller sur la barre d adresse et taper l adresse d u site aléatoire. E terme de matrice de trasitio, o va remplacer la coloe de l état absorbat par le vecteur :... () (2) La matrice de trasitio T deviet doc : 0 0 0 0 2 0 0 0 2 0 0 0 T = 0 0 0 0 0 0 0 2 0 0 0 2 0 0 0 0 () 5

Avec ce chagemet, T est irréductible et apériodique, doc ergodique. Pourtat, ce est pas toujours le cas, preat l exemple avec les sites de Maths et les sites de Sport, o peut obteir ue matrice de trasitio T : T = 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 () Elle a pas des états absorbates mais elle est pas irréductible et doc pas ergodique. Il faut que l o fasse ecore ue autre hypothèse : Supposat que le visiteur est sur ue page, o dit qu avec la probabilité p il va choisir u des lies das cette page et avec la probabilité p il va aller sur la barre d adresse et taper l adresse d u site aléatoire. La ouvelle matrice de trasitio est doc : G = pt + (p )K (5) avec K la matrice dot chaque coloe est le vecteur :... (6) La matrice G est appelée la matrice de Google. G est ergodique. Google utilise souvet p = 0.85. 6

E appliquat à otre exemple, o obtiet : G = 0.85 0 2 0 0 0 0 0 2 0 0 0 0 0 0 0 0 0 2 0 0 0 0 2 0 0 0 0 0 + 0.5 () G =.0229.629.0229.285.0229.0229.285.0229.0229.062.285.629.0229.285.829.0229.0229.285.0229.062.285.0229.0229.062.285.0229.0229.285.0229.629.0229.285.0229.062.285.0229.0229.062.285.629.0229.285.0229.0229.0229.285.0229.062.285 (8) E résoudrat Gπ = π, o trouve : π =.629.6856.926.0988.605.6856.092 (9) L ordre de classemet das otre exemple est doc :,2,6,5,,, Alors si u mot cherché apparait das les pages,2,5, l ordre des résultats est 2,5,.

Gamig the system! Commet peut o augmeter la valeur PageRak de otre site? Si la valeur PageRak (qui est aussi la probabilité statioaire) d ue page est p, le temps de retour de cette page est. Alors o peut effectivemet p augmeter la valeur PageRak e dimiuat le temps de retours, ce qui est possible si o crée des cycles très courts, ou idéalemet des loops. Cocrètemet, pour ue page x, o supprime tous les lies sur celleci (ie. pas de sortie), o crée ue autre page, y, avec seulemet 2 arêtes x y et y x. La valeur PageRak de la page x augmete car chaque fois que le visiteur tombe sur cette page, il peut pas s e sortir. Comme o a discuté das la partie (avec l exemple de Maths et Sport), l algorithme de PageRak peut éviter l effet de cette stratégie e augmetat la valeur de p, la probabilité que le visiteur va aller sur la barre d adresse et taper l adresse d u site aléatoire. Ue autre stratégie est de créer beaucoup de pages qui a seulemet arêtes vers la page x. Cette techique profite la probabilité p de recommecer la marche. Si o a ue très grade ombre de pages fausses, c est très probable que après recommecer, o va tomber sur la page x, et doc la valeur PageRak augmete. Pour éviter cette situatio, il faut dimiuer la valeur de p. Grâce à ces 2 situatios o voit bie que le choix de p est extrêmemet importat pour éviter les spams. Si p est trop élevée, les spammers doivet juste créer des millios de pages fausses etraiat à leurs pages pricipales. E revache, avec ue très petite p, ils peuvet établir des loops avec leur pages. Ce que l o a discuté est seulemet les pricipes de bases de la moteur de recherche de Google. Les techiques ot déja beaucoup très évolué pour doer les résultats plus pertiets. La questio de computatio est très itéressate aussi. Etat doé que la vraie matrice de Google est de taille 8 milliards x 8 milliars, la méthode d élimiatio de Gauss est pas pratique. O utilise des algorithmes plus puissats pour trouver les vecteurs propres, otammet la méthode de la puissace. 8

Référeces [] Kumar, Ravi, Alex Goh Kwag Leg, ad Ashutosh Kumar Sigh. Applicatio of Markov Chai i the PageRak Algorithm. Trasitio (92) :. [2] Kurt Brya, Taya Leise. The $25 000 000 000 eigevector, The liear algebra behid Google. [] Lagville, Amy N., ad Carl D. Meyer. Deeper iside pagerak. Iteret Mathematics. (200) : 5-80. [] Jia Li. Markov Chai Iterpretatio of Google Page Rak. 2005 [5] Wexig Ye. O PageRak Algorithm ad Markov Chai Reductio. 9