Web Science. Master 1 IFI. Andrea G. B. Tettamanzi. Université de Nice Sophia Antipolis Département Informatique andrea.tettamanzi@unice.



Documents pareils
Le théorème de Perron-Frobenius, les chaines de Markov et un célèbre moteur de recherche

Chaînes de Markov au lycée

Principes d AdWords. Quelques mots de présentation. Une audience large : les réseaux de ciblage. Réseau de recherche

AdWords Guide de survie

Ma campagne de liens sponsorisés avec AdWords

Evaluation et analyse de la fréquentation d un site

Modélisation aléatoire en fiabilité des logiciels

Texte Agrégation limitée par diffusion interne

Formation e-publicité

Modèles à Événements Discrets. Réseaux de Petri Stochastiques

Google adwords Google ad sense. Quelle démarche suivre?

Être visible sur internet - Améliorez votre référencement

AdWords Faites la promotion de votre entreprise sur Google avec MidiMédia

A l Aise Web - Liens sponsorisés

Jeudi 30 avril L art de bien référencer son site Internet

Catalogue de formations JK Référencement

COMMENT FONCTIONNE GOOGLE?

Google AdWords. Comment faire? 1 Chantal Gomez pour la CCI - Angers - 25 septembre mercredi 24 septembre 14

Académie Google AdWords. Lille le 19 janvier 2012

Pourquoi une stratégie de sites dédiés? Laurent-Pierre GILLIARD AEC 14/06/2007 Vincent MOREAU SYSTONIC 09/06/2006

Centre de formation digital et communication : www. Komelya.fr

Séances 4 à 6. Le tableau suivant résume la multiplicité des indicateurs de performance utilisés dans les campagnes digitales.

Chapitre 3. Mesures stationnaires. et théorèmes de convergence

1. Pourquoi? Les avantages d un bon référencement

POURQUOI UN SITE E-COMMERCE EST-IL UNE

Les facteurs de référencement d un site internet

REFERENCEMENT ET PERFORMANCE DU SITE WEB

Académie Google AdWords

Faire de la publicité sur GOOGLE AD-WORDS

Les premières étapes d une présence adéquate sur le Web

Kaizen Marketing Group Web Agency. Kaizen Marketing. - Stéphanie Héline-

I Stabilité, Commandabilité et Observabilité Introduction Un exemple emprunté à la robotique Le plan Problème...

Copyright 2008 Patrick Marie.

E-Commerce à Orthez E-Commerce : Se lancer - Générer des commandes - Se positionner : Explications et témoignages Orthez 15 mai 2008

LES LEVIERS DE L EMARKETING. OAP Marketing Web - ESC Toulouse 2008 Intevenant: francois@goube.org

De l Encyclopédie aux moteurs de recherche

ARIA Languedoc-Roussillon. Atelier Internet «Le référencement et les autres outils webmarketing»

D UN BON REFERENCEMENT

Probabilités stationnaires d une chaîne de Markov sur TI-nspire Louis Parent, ing., MBA École de technologie supérieure, Montréal, Québec 1

La publicité multimédia (internet)

>> Le référencement payant. Qu est-ce que le référencement payant? La mise en relation directe avec les internautes qui vous recherchent

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes

Affiliate link:

PHOTOGRAPHIE & COMMUNICATION

Comment démarrer en toute simplicité

Pour mémoire. Le trafic mobile rattrape et dépasse le trafic statique 3/18

WEBSITEBURO. Agence Media Internet. Stratégies publicitaires on-line

APPORT DES RESEAUX BAYESIENS DANS LA PREVENTION DE LA DELINQUANCE

BIEN NAVIGUER SUR INTERNET. 2. Les moteurs de recherche. Ligue Libérale des Pensionnés asbl

Référencement Vendredi 4 Juillet Ile Degaby

Google AdWords : le Guide complet Optimisez vos campagnes pour gagner plus!

Fiche pratique : REPORTING SEARCH

La Stratégie de la Réussite avec Google AdSense

Comment utiliser les générateurs de mots clés?

Resolution limit in community detection

NOS SERVICES NOTRE METHODOLOGIE

Nombres, mesures et incertitudes en sciences physiques et chimiques. Groupe des Sciences physiques et chimiques de l IGEN

Atelier E-TOURISME Optimiser la visibilité de son site sur les moteurs de recherche. ecotourismepro.jimdo.com

Ateliers de formation Internet. epub : netlinking et Adwords

Pass / 28 Novembre By Philippe Coudol

Rappels sur les suites - Algorithme

Référencement naturel & E-tourisme. Pau 02/10/2008

L introduction à la thèse

S informer et se développer avec internet

Taux d évolution moyen.

Guide de l'annonceur : collaboration avec un partenaire tiers

Tests du χ 2. on accepte H 0 bonne décision erreur de seconde espèce on rejette H 0 erreur de première espèce bonne décision

Manuel utilisateur estat Clics

Formation Découverte du Web

Quel que soit votre budget, vous pouvez diffuser vos annonces sur Google et son réseau publicitaire.

Certification Google AdWords Principes fondamentaux : les bases de la publicité

VIS MA VIE D EXPERT COMPTABLE. Comment sortir la tête de l eau?

Ma première visibilité sur le Web. en 60 min avec des outils gratuits

Glossaire suivi SEO. Glossaire suivi SEO. Document : Suivi SEO. Projet : Date : 18/02/15. Version : 1

La classification automatique de données quantitatives

Contrat didactique Mathématiques financières

SEO On-page. Avez-vous mis toutes les chances de votre côté pour le référencement de votre site?

Référencement naturel

Équation de Langevin avec petites perturbations browniennes ou

Cosmina TRIFAN Chef de projets Webmarketing, Pentalog WebSchool Orleans

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

Google AdWords On & Off

Algorithmes de Transmission et de Recherche de l Information dans les Réseaux de Communication. Philippe Robert INRIA Paris-Rocquencourt

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

4 Exemples de problèmes MapReduce incrémentaux

Raisonnement probabiliste

Notes de cours - MOOC Communication

Introduction aux algorithmes MapReduce. Mathieu Dumoulin (GRAAL), 14 Février 2014

Les systèmes CPC (Coût Par Clic) sont des moyens rapides d'obtenir de la visibilité à grande échelle et rapidement.

Coup de Projecteur sur les Réseaux de Neurones

Une pieuvre qui vous veut du bien? Don't be evil (ne pas être malveillant)

SEO Campus 2009 : Pagerank et optimisation

Le cas Google : Un ensemble de Business Models. "To organize the world's information and make it universally accessible and useful"

Search Engine Marketing. Impact des campagnes marketing

1. texte brut (sans fioritures)


Comment générer des revenus en Affiliation

Jeudi 10 avril 2014 Analyse et Référencement

16 septembre Lundi de l Economie l. rencement. Foix. CCI Ariège

... Cahier des charges Site Internet Office de Tourisme Lesneven - Côte des Légendes MAITRE D OUVRAGE

Transcription:

Web Science Master 1 IFI Andrea G. B. Tettamanzi Université de Nice Sophia Antipolis Département Informatique andrea.tettamanzi@unice.fr 1

Annonce : recherche apprenti Projet Géo-Incertitude Objectifs de formation Conduite d un projet complexe en Java dans le cadre d une équipe de recherche interdisciplinaire ; Théories et méthodes de la connaissance incertaine issues de l IA et au monde applicatif des Systèmes d Information Géographique (SIG). Extension du projet OpenMarkov Réseaux bayésiens Réseaux possibilistes Me contacter urgemment si intéressés! 2

CM - Séance 3 PageRank et comment Google transforme des mots en argent 3

Introduction Quelques chiffres sur Google (mise à jour : 25 mai 2014) Capitalisation de marché : ~ 375 milliards de dollars Chiffre d'affaires : 62 milliards de dollars $590/s!!! Bénéfices avant intérêts, impôts, etc. : 18.6 milliards de $ Environs 54 000 employés Par comparaison PIB du Luxembourg : 57 milliards de dollars Si Google était un pays, il serait le 70ème par PIB sur 193 En 2013, Google était 15ème au monde par capitalisation parmi les entreprises cotées en bourse Pas mal pour un «simple» moteur de recherche 4

La clé du succès Le succès de Google se base sur deux algorithmes : PageRank AdWords + AdSense Le premier permet de trier les résultats des recherches : valeur d'usage il a imposé Google comme leader du marché Le deuxième génère l'impression de messages publicitaires ciblés aux intérêts du public d'une page Web : valeur d'échange AdWords permet d'acheter du trafic, AdSense de le vendre 5

Plan PageRank AdWords + AdSense TD 6

1ère Partie PageRank 7

Intuition de fond Le Web comme graphe orienté Ses nœuds sont les pages HTML Ses arcs sont les hyperliens <a href='' ''>... </a> Quelles pages visiterait un surfeur aléatoire? Le surfeur aléatoire commencerait par une page arbitraire Il sauterait d'une page à la suivante en cliquant sur un hyperlien choisi au hasard Idée : mesurer l'importance d'un page par la probabilité qu'elle soit visitée à l'instant t par un surfeur aléatoire! Cette probabilité est la fréquence de visite de la page 8

Événements Espace échantillon ou univers D A B 9

Variables aléatoires 0 10

Processus Stochastiques Une suite de variables aléatoires Chacune dotée de sa propre distribution de probabilité. Notation: 11

Chaînes de Markov Un processus stochastique est une chaîne de Markov si et seulement si, pour tout t, 0.4 0.6 A B 0.3 0.7 C 0.75 0.25 12

Matrice de transition T est une matrice stochastique : 13

Définition «idéalisée» de PageRank 14

Exemple 15

Hypothèse de fond Une page Web est importante si elle est référencée par d'autres pages importantes 16

Analyse de la définition Il y a trois facteurs qui déterminent le PageRank d'une page : Le nombre de liens qui pointent vers elle ; La propension des pages d'origine de ces liens à diriger le surfeur vers elle, c'est-à-dire, le nombre total de leurs liens sortants ; Le PageRank des pages d'origine des liens Le modèle idéalisé a deux problèmes : Les pages sans liens sortants (dangling), qui captureraient le surfeur Le surfeur peut aussi rester piégé dans un bucket (= sceau), une composante joignable et fortement connectée, sans arcs sortants vers le reste du graphe 17

Modèle réel : matrice Google Les lignes de la matrice H avec tous les éléments égales à zéro, qui correspondent aux pages sans liens sortants, sont remplacées par une distribution uniforme ou arbitraire. Soit S la matrice ainsi modifiée. Pour résoudre le problème des buckets, Brin et Page proposent de remplacer la matrice S par la matrice Google : matrice de téléportation damping factor 18

Interprétation de la matrice Google La définition de la matrice Google peut être expliquée comme suit Avec probabilité δ, le surfeur aléatoire suit le lien suivant Avec probabilité 1 δ, le surfeur se lasse de suivre des liens et dirige le navigateur vers un nouveau URL, qui pourrait n'avoir rien à voir avec la page courante. Dans ce cas, le surfeur est «téléporté» à cette nouvelle page Les inventeurs de PageRank proposent un facteur d'amortissement δ = 0.85 : En moyenne, après avoir suivi 5 liens, le surfeur choisit une nouvelle page au hasard. Le vecteur PageRank est donc π tel que 19

Existence et unicité du vecteur PageRank Le vecteur π est un vecteur propre de G de valeur propre 1. La matrice S est stochastique, ainsi que la matrice E. La matrice G est donc stochastique. Si G est stochastique, l'équation π = πg a au moins une solution. D'après le théorème de Perron-Frobenius, si A est une matrice carrée non-négative irréductible, alors il existe un vecteur x tel que x A = r x, où r est le rayon spectral de A. La matrice S est vraisemblablement réductible mais, grâce à la matrice de téléportation, G ne l'est sûrement pas. En plus, puisque G est stochastique, son rayon spectral est 1. Par conséquent, un vecteur PageRank > 0 existe et est unique. 20

PageRank et Théorie de Markov Le modèle de marche aléatoire sur le graphe du Web, modifié avec la téléportation, induit naturellement une chaîne de Markov avec un nombre fini (même si énorme) n d'états ( = pages) G est la matrice de transition de cette chaîne de Markov Puisque G est irréductible, la chaîne est ergodique et a une distribution stationnaire unique, qui correspond au vecteur PageRank π. 21

Calcul du vecteur PageRank (1) La méthode de la puissance est une méthode numérique qui permet de déterminer la valeur propre de module maximal d'une matrice à coefficients réels. On prend un vecteur x au hasard et on calcule la suite récurrente: Cette suite converge vers la valeur propre de module maximal de la matrice A Pour calculer π, on part du vecteur u = (1/n,, 1/n) et on s'arrête lorsque 22

Calcul du vecteur PageRank (2) La vitesse de convergence de la méthode de la puissance appliquée à la matrice G est du même ordre que le taux avec lequel δk approche 0. Par exemple, pour δ = 0.85 : 43 itérations précision de 3 chiffres décimaux 142 itération précision de 10 chiffres décimaux On note aussi que la méthode de la puissance appliquée à la matrice G peut être exprimée en termes de la matrice H H est une matrice très creuse, qui peut être stockée dans un espace de mémoire de taille O(n) Selon certains rumeur, Google recalculerait π une fois par mois «Google dance» : oscillation de π lors du calcul 23

2ème Partie AdWords et AdSense ou de Comment Google transforme des mots en argent 24

Enjeu Mars 2000 : Éclatement de la «Bulle Internet» Beaucoup de start-ups proposant une valeur d usage, mais pas de valeur d échange ne résistèrent pas Meilleure idée que de simplement vendre de la publicité Accumulation de capital linguistique grâce à ses services Exploiter ce capital Un algorithme qui organise automatiquement la spéculation autour des mots a permis de créer le premier marché linguistique mondial Trademarks : il était déjà possible d'acheter certains mots Google a élargi et libéralisé ce marché 25

1 4 2 5 3 6 7 8 9 10 26

AdWords Mécanisme d'enchère sur des mots pour placer des annonces Tous les mots(-clefs) peuvent donner lieu à des enchères L algorithme classe automatiquement les annonces selon un calcul en quatre étapes : Enchère sur un mot (E) : l'annonceur fixe un prix max qu'il est prêt à payer en cas de clic Calcul du score qualité Q de l'annonce (pertinence) : secret! Calcul du rang de l'annonce : R = E Q, et classement i Calcul du prix à payer en cas de clic : 27

GoogleTrends Vacances al-qaeda Elections Porn 28

Achat et vente de trafic Ad Words Ad Sense $ $ Annonceurs Propriétaires/créateurs de pages Web Les annonceurs font des enchères sur les mots pour en acheter le trafic Les sites Web vendent leur trafic à Google pour afficher les annonces Avantages pour les utilisateurs Des services «gratuits» (recherche, info, email, maps, etc.) Une publicité utile, pertinente, non-invasive Une expérience agréable des contenus en ligne 29

Deux sources de bénéfice Publicité sur les sites de Google, tels que google.com gmail.com orkut.com Youtube.com Publicité sur les sites des clients adsense 30

Merci de votre attention 31