Processus de recherche de documents sur le web

Documents pareils
Editing and managing Systems engineering processes at Snecma

SEO & WordPress. Neil McCarthy GOODNESS CONSEIL EN WEBMARKETING & RÉFÉRENCEMENT. Bâtiment Enerpôle Technopôle Izarbel BIDART

Référencement de votre site Web Google et autres moteurs de recherche (4ième édition)

Introduction. M2206 Intégration web. Introduction. Introduction 20/01/2014

Recherche d information textuelle

Qu est ce que le référencement web?

Paternité - Pas d'utilisation Commerciale - Pas de Modification 2.0 France. de reproduire, distribuer et communiquer cette création au public

Monitor LRD. Table des matières

Synodiance. 10 tendances SEO & SEA 19/02/2014

Optimiser le référencement de votre site

Utiliser une WebCam. Micro-ordinateurs, informations, idées, trucs et astuces

Les premières étapes d une présence adéquate sur le Web

Telecharger gratuitement convertisseur de fichier word en pdf

16 septembre Lundi de l Economie l. rencement. Foix. CCI Ariège

Trends. Médias sociaux et SEO - la force du contenu

Jeudi 30 avril L art de bien référencer son site Internet

Agence web en Suisse romande CH-1260 Nyon

AVOB sélectionné par Ovum

Métiers - informatique et Internet Jobs - IT and Internet

Intro: WordPress SEO Version Française

Guide de création de site web optimisé

Comment la ville de Westmount a automatisé la préparation de ses réunions du conseil :

: Machines Production a créé dès 1995, le site internet

Inscription de votre site sur Google Configuration du sitemap et de Webmaster Tools pour PrestaBox

Quick Start Guide This guide is intended to get you started with Rational ClearCase or Rational ClearCase MultiSite.

Accompagnement et aides. financières de Pôle Emploi

Paris Airports - Web API Airports Path finding

Evolution et architecture des systèmes d'information, de l'internet. Impact sur les IDS. IDS2014, Nailloux 26-28/05/2014

TURNING VIEWERS INTO CLICKERS

UNIVERSITE DE YAOUNDE II

D origine destiné à la conception de blog, WordPress est devenu l outil incontournable dans la liste des systèmes de gestion de contenus..

D UN BON REFERENCEMENT

GIGABIT PCI DESKTOP ADAPTER DGE-530T. Quick Installation Guide+ Guide d installation+

ENOVIA 3DLive. IBM PLM Solutions 1 er Octobre Philippe Georgelin Sébastien Veret

Bourses d excellence pour les masters orientés vers la recherche

How to Login to Career Page

WordPress Référencement naturel (SEO) Optimiser. son référencement. Daniel Roch. Préface d Olivier Andrieu

Le Top 20 (et quelques) des outils à utiliser en SEO en 2013

AUTUMN/WINTER PARIS COLLECTION

Connaître la version de SharePoint installée

WordPress Référencement naturel (SEO) Optimiser. son référencement. Daniel Roch. Préface d Olivier Andrieu

Créer un site e-commerce avec Dreamweaver CS4 et PHP/MySQL

RAMOS. Etude d Application. All rights reserved, CONTEG 2013

CEST POUR MIEUX PLACER MES PDF

SCHOLARSHIP ANSTO FRENCH EMBASSY (SAFE) PROGRAM APPLICATION FORM

VIS MA VIE D EXPERT COMPTABLE. Comment sortir la tête de l eau?

Comment Accéder à des Bases de Données MySQL avec Windows lorqu'elles sont sur un Serveur Linux

LSO à l heure de Google Pigeon

affichage en français Nom de l'employeur *: Lions Village of Greater Edmonton Society

d un site web universitas friburgensis Objectifs de l atelier

Face Recognition Performance: Man vs. Machine

Services à la recherche: Data Management et HPC *

DOCUMENTATION - FRANCAIS... 2

Référencement Naturel ou SEO Search Engine Optimization

L introduction à la thèse

Get Instant Access to ebook Cest Maintenant PDF at Our Huge Library CEST MAINTENANT PDF. ==> Download: CEST MAINTENANT PDF

Differential Synchronization

Quatre axes au service de la performance et des mutations Four lines serve the performance and changes

Compromission d'un environnement VOIP Cisco Exploitation du Call Manager SSTIC Francisco. Juin 2013 LEXFO 1

MANUEL MARKETING ET SURVIE PDF

Switching PCIe Photonique/Silicium Intel Connectique Intel MXC

XtremWeb-HEP Interconnecting jobs over DG. Virtualization over DG. Oleg Lodygensky Laboratoire de l Accélérateur Linéaire

Yves Vandeuren. Services : Conseils en Marke'ng // Digital Ges'on de projets Web Forma'on, organisa'on de conférences

La rencontre du Big Data et du Cloud

SERVEUR DÉDIÉ DOCUMENTATION

Présentation par François Keller Fondateur et président de l Institut suisse de brainworking et M. Enga Luye, CEO Belair Biotech

Instructions Mozilla Thunderbird Page 1

Notice Technique / Technical Manual

Règles et paramètres d'exploitation de Caparmor 2 au 11/12/2009. Pôle de Calcul Intensif pour la mer, 11 Decembre 2009

Référencement Au Sein d un (gros) Site E-Commerce

ANGULAR JS AVEC GDE GOOGLE

04/05/2011 Amundi Liquidity A creative market introduction Date

Eurateach labellisé par la région et le FAFIEC. Si vous remplissez les conditions suivantes : Votre entreprise compte moins de 250 salariés

Contents Windows

THÈSE. présentée à TÉLÉCOM PARISTECH. pour obtenir le grade de. DOCTEUR de TÉLÉCOM PARISTECH. Mention Informatique et Réseaux. par.

Référencement naturel

PeTEX Plateforme pour e-learning et expérimentation télémétrique

Phone Manager Soutien de l'application OCTOBER 2014 DOCUMENT RELEASE 4.1 SOUTIEN DE L'APPLICATION

RAPID Prenez le contrôle sur vos données

La démarche d innovation streching vs la démarche d innovation de rupture

Architecture client riche Evolution ou révolution? Thomas Coustenoble IBM Lotus Market Manager

Instaurer un dialogue entre chercheurs et CÉR: pourquoi? Me Emmanuelle Lévesque Centre de génomique et politiques Université McGill

Circuit d Influence. Ambassadeurs. Early Adopters. Influenceurs. Décideurs. Utilisateurs

Utiliser le site linoit.com pour réaliser des tableaux de liège virtuels

MELTING POTES, LA SECTION INTERNATIONALE DU BELLASSO (Association étudiante de lʼensaparis-belleville) PRESENTE :

Déploiement OOo en environnement Windows Terminal Server

Le Cloud Computing est-il l ennemi de la Sécurité?

DOSSIER DE CANDIDATURE PEDAGOGIQUE En seconde Année du MASTER «Sciences de l Ingénieur» (SDI) Année universitaire

Chimie/Chemistry.

REFERENCEMENT ET PERFORMANCE DU SITE WEB

Francoise Lee.

Mesure chimique. Chemical measurement. Sonde de température Pt 1000 Inox Pt 1000 stainless steel. Ref : Français p 1.

Thank you for choosing the Mobile Broadband USB Stick. With your USB Stick, you can access a wireless network at high speed.

Offre SEO/SMO. Le référencement au cœur de votre stratégie web marketing. Tous droits réservés Emencia

Devis pour la création de votre site Internet

Comprendre l impact de l utilisation des réseaux sociaux en entreprise SYNTHESE DES RESULTATS : EUROPE ET FRANCE

API SMS HTTP REST. Intégrer facilement le service Envoyer SMS Pro avec votre application métier. Version : Révision : 03/09/2014 Page 1/31

CURRENT UNIVERSITY EDUCATION SYSTEM IN SPAIN AND EUROPE

Le référencement naturel

Transcription:

Processus de recherche de documents sur le web Guy Lapalme IFT3225 Exemple tirée de la section 12.1.2 de Web Application Architecture, L. Shklar & R. Rosen, Wiley, p 349-357 Programme python illustrant ces calculs

Documents Doc 1 Doc 2 Doc 3 StopWords Search technologies have been around for over forty years. Over this time, their user base expanded first from scientists and technologists to information professionals, and finally from information professionals to pretty much everyone. Math and physics students are familiar with the challenge of finding the unambiguous "right answer". The same is not true for information retrieval. Finding the "right document" may be as much art a science. Many serial killers do not suffer from psychosis and appear to be quite normal. Search for such serial killers can take years, even with the latest police technologies, and the results are often shocking.. have been for over this their from and for the with same is not quite true may be as do and such can even often to are a of of Requête the promise of search technologies 2

Documents Doc 1 Doc 1 - sw Doc 1 -sw+lem Search technologies have been around for over forty years. Over this time, their user base expanded first from scientists and technologists to information professionals, and finally from information professionals to pretty much everyone. search technologies around forty years time user base expanded first scientists technologists information professionals finally information professionals pretty much everyone search technology around forty year time user base expand first science technology information professional final information professional pretty much everyone Requête Requête -sw+lem the promise of search technologies promise search technology 3

TERM D1 D2 D3 Q everyone 1 - - - art - 1 - - right - 2 - - result - - 1 - shock - - 1 - year 1-1 - serial - - 2 - suffer - - 1 - technology 2-1 1 find - 2 - - unambiguous - 1 - - information 2 1 - - police - - 1 - appear - - 1 - forty 1 - - - much 1 1 - - take - - 1 - pretty 1 - - - answer - 1 - - document - 1 - - final 1 - - - math - 1 - - around 1 - - - normal - - 1 - familiar - 1 - - killer - - 2 - base 1 - - - user 1 - - - student - 1 - - expand 1 - - - search 1-1 1 science 1 1 - - challenge - 1 - - many - - 1 - psychosis - - 1 - time 1 - - - professional 2 - - - latest - - 1 - physics - 1 - - retrieval - 1 - - first 1 - - - Vecteurs des termes différences avec requête D1=1 [2] D2=2 [3] D3=0 [1] différences avec requête pondérée (requête *1000) D1=1997 [1] D2=2000 [3] D3=1998 [2] 4

TERM D1 D2 D3 Q everyone 1 - - - art - 1 - - right - 2 - - result - - 1 - shock - - 1 - year 1-1 - serial - - 2 - suffer - - 1 - technology 2-1 1 find - 2 - - unambiguous - 1 - - information 2 1 - - police - - 1 - appear - - 1 - forty 1 - - - much 1 1 - - take - - 1 - pretty 1 - - - answer - 1 - - document - 1 - - final 1 - - - math - 1 - - around 1 - - - normal - - 1 - familiar - 1 - - killer - - 2 - base 1 - - - user 1 - - - student - 1 - - expand 1 - - - search 1-1 1 science 1 1 - - challenge - 1 - - many - - 1 - psychosis - - 1 - time 1 - - - professional 2 - - - latest - - 1 - physics - 1 - - retrieval - 1 - - first 1 - - - Synt0 1 1-1 Synt1 - - 1 - Synt2 2 - - - Vecteurs avec syntagmes requête initiale D1=1 [1] D2=2 [3] D3=1 [1] search technology / information retrieval police technology 5 information professional

TERM D1 D2 D3 Q everyone 1 - - - art - 1 - - right - 2 - - result - - 1 - shock - - 1 - year 1-1 - serial - - 2 - suffer - - 1 - technology 2-1 1 find - 2 - - unambiguous - 1 - - information 2 1 - - police - - 1 - appear - - 1 - forty 1 - - - much 1 1 - - take - - 1 - pretty 1 - - - answer - 1 - - document - 1 - - final 1 - - - math - 1 - - around 1 - - - normal - - 1 - familiar - 1 - - killer - - 2 - base 1 - - - user 1 - - - student - 1 - - expand 1 - - - search 1-1 1 science 1 1 - - challenge - 1 - - many - - 1 - psychosis - - 1 - time 1 - - - professional 2 - - - latest - - 1 - physics - 1 - - retrieval - 1 - - first 1 - - - Synt0 10 10-1 Synt1 - - 10 - Synt2 10 - - - Vecteurs avec syntagmes requête initiale D1=1 [1] D2=2 [3] D3=1 [1] requête pondérée (requête *1000) D1=2987 [1] (syntagme *10) D2=2990 [2] D3=2998 [3] search technology / information retrieval police technology 6 information professional

SEO Search Engine Optimisation Tenter d améliorer le référencement de son site

Trucs légaux White hat SEO mettre du contenu intéressant pour que les gens lui fassent des liens simplification de la structure des URL site maps enlever les références circulaires éviter les multiples URL qui référencent la même ressource 8

Trucs moins légaux «Black hat SEO» insérer des mots-clés invisibles mettre des faux mots dans le meta-tag créer des pages qui ne sont visibles que des web crawlers créer des link farms 9

Trucs moins légaux «Black hat SEO» insérer des mots-clés invisibles mettre des faux mots dans le meta-tag créer des pages qui ne sont visibles que des web crawlers créer des link farms Guerre entre les moteurs de recherche et les gens qui veulent s afficher 9

Orientation des crawlers dans son site robot.txt : permissions pour des parties du site User-agent: * Disallow: /cgi-bin/ Disallow: /tmp/ Disallow: /~joe/ sitemap - propriétés d une partie du site - fréquences des changements - dernières modifications 10

Exemple de sitemap <?xml version="1.0" encoding="utf-8"?> <urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"> <url> <loc>http://www.example.com/</loc> <lastmod>2005-01-01</lastmod> <changefreq>monthly</changefreq> <priority>0.8</priority> </url> <url> <loc>http://www.example.com/catalog?item=12&desc=vacation_hawaii</loc> <changefreq>weekly</changefreq> </url> <url> <loc>http://www.example.com/catalog?item=73&desc=vacation_new_zealand</loc> <lastmod>2004-12-23</lastmod> <changefreq>weekly</changefreq> </url> <url> <loc>http://www.example.com/catalog?item=74&desc=vacation_newfoundland</loc> <lastmod>2004-12-23t18:00:15+00:00</lastmod> <priority>0.3</priority> </url> <url> <loc>http://www.example.com/catalog?item=83&desc=vacation_usa</loc> <lastmod>2004-11-23</lastmod> </url> </urlset>