Recherche d information : contours et bonnes pratiques



Documents pareils
Introduction à la Recherche d information

Introduction. M2206 Intégration web. Introduction. Introduction 20/01/2014

Le référencement naturel

Table des matières. Préface...5. Introduction...9

Recherche d information textuelle

Kaizen Marketing Group Web Agency. Kaizen Marketing. - Stéphanie Héline-

VIS MA VIE D EXPERT COMPTABLE. Comment sortir la tête de l eau?

Référencement & Positionnement

Guide et conseils généraux pour optimiser le référencement d un site internet

Offre SEO/SMO. Le référencement au cœur de votre stratégie web marketing. Tous droits réservés Emencia

Recherche d'information dans Internet Introduction

Offre SEO/SMO. Le référencement au cœur de votre stratégie web marketing. Tous droits réservés Emencia

ETRE VISIBLE SUR INTERNET. Search Engine Optimisation (SEO)

Jeudi 30 avril L art de bien référencer son site Internet

: seul le dossier dossier sera cherché, tous les sousdomaines

RI sociale : intégration de propriétés sociales dans un modèle de recherche

WordPress Référencement naturel (SEO) Optimiser. son référencement. Daniel Roch. Préface d Olivier Andrieu

Objectifs. Synthétiser. Moyens

Formation à la recherche documentaire sur le web

Eurateach labellisé par la région et le FAFIEC. Si vous remplissez les conditions suivantes : Votre entreprise compte moins de 250 salariés

WordPress Référencement naturel (SEO) Optimiser. son référencement. Daniel Roch. Préface d Olivier Andrieu

LE REFERENCEMENT NATUREL D UN SITE WEB1

Référencement naturel

David BEDOUET, WebSchool Orleans. Cosmina TRIFAN, WebSchool Orleans

Réussir. son. référencement. web. Olivier Andrieu. Groupe Eyrolles, 2008, ISBN :

Evolution des moteurs de recherche. sur le Web. I. 18 ans d'outils de recherche sur le web. URFIST Bordeaux - 5 avril 2011 Olivier Andrieu (Abondance)

quicksite Bienvenue à ce séminaire «Optimiser votre contenu pour Google»

Stratégie webmarketing

DUT GEA. Informatique D après le document de Laurent GILI / Lycée Prévert

Rencontre French IT Club. Présenté par Hadrien Brassens

L introduction à la thèse

Veille stratégique sur Internet Comprendre les enjeux, maîtriser les outils et partager l'information

Créer et animer une boutique en ligne avec Wordpress (environnement PC et MAC)

Programme Type de Formation SEO

GUIDE DE RÉFÉRENCEMENT POUR VOTRE SITE INTERNET

Référencement de votre site Web Google et autres moteurs de recherche (4ième édition)

Pourquoi une stratégie de sites dédiés? Laurent-Pierre GILLIARD AEC 14/06/2007 Vincent MOREAU SYSTONIC 09/06/2006

Partner Entreprise. Modules de cours pour la formation continue Offre IFAPME Verviers

Google Analytics - Analysez le trafic de votre site pour améliorer ses performances inclut Universal Analytics (2ième édition)

Référencement Professionnel de votre site web sur Google

Atelier 1. Portails documentaires : BioLib et Cemadoc

SEO international et multilingue Faites tomber les frontières! SEO CAMP DAY ANGERS

Evaluation et analyse de la fréquentation d un site

1 Avant-Propos 5 Remerciements. 9 Usages, contraintes et opportunités du mobile. 33 Site ou application : quelle solution choisir? Table des matières


INU Information et sites Web 10 avril 2015 SEO. Dominic Forest, Ph.D.

SEO > Grandes Tendances. 29/01/2015 > Digital Marketing Day

Moteurs de recherche: origines, évolution et perspectives Aissam Mezhoud, Search Advertising Lead, Microsoft

Bien acheter son référencement Leila Couaillier-Moumeni LSFinteractive

D origine destiné à la conception de blog, WordPress est devenu l outil incontournable dans la liste des systèmes de gestion de contenus..

Les premières étapes d une présence adéquate sur le Web

PrestaShop Cloud. Créer un site e-commerce avec. PrestaShop Cloud. Mise en place et suivi du projet. Créer un site e-commerce avec

Créer un site e-commerce avec PrestaShop Cloud Mise en place et suivi du projet

Recherche d Information(RI): Fondements et illustration avec Apache Lucene. par Majirus

Métier de Directeur Webmarketing. Ce diaporama est disponible pour votre clé USB en fin de présentation

E-réputation Méthodes et outils pour les individus et les entreprises

Vue Générale et Cas d Usage

La Performance Digitale en Business to Business

NOS SERVICES NOTRE METHODOLOGIE

Le Top 20 (et quelques) des outils à utiliser en SEO en 2013

Formation Découverte du Web

Telecharger gratuitement convertisseur de fichier word en pdf

Jeudi 10 avril 2014 Analyse et Référencement

Formation e-publicité

Googl le C C f on é férence : Stéphane Bouchez STRATENET 21/03/2013

Logiciels de référencement

Atelier 3 : Communiquer efficacement à l international

TRAVAUX DE RECHERCHE DANS LE

Commencer avec doo sous OS X

En 2010, on compte environ 1,65 milliard d utilisateurs d internet, Introduction

Trends. Médias sociaux et SEO - la force du contenu

SEO & WordPress. Neil McCarthy GOODNESS CONSEIL EN WEBMARKETING & RÉFÉRENCEMENT. Bâtiment Enerpôle Technopôle Izarbel BIDART

Partie II Approche théorique

D UN BON REFERENCEMENT

Qu est ce que le référencement web?

Communication Unifiée UC² IBM Corporation

Solocal Group Solocal Group pilote ses audiences via un ensemble de tableaux de bord complètement automatisés grâce à l API AT Internet.

Open Data. Enjeux et perspectives dans les télécommunications

BIG DATA et DONNéES SEO

Technologies du Web. Ludovic DENOYER - ludovic.denoyer@lip6.fr. Février 2014 UPMC

DIGITAL MINDS. Chapitre 6, Le référencement naturel. 12 Clés pour Développer votre Business sur le Web WSI. All rights reserved.

WEBSITEBURO. Agence Media Internet. Stratégies publicitaires on-line

Ou comment devenir visible sur la toile

SEO On-page. Avez-vous mis toutes les chances de votre côté pour le référencement de votre site?

Être visible sur internet - Améliorez votre référencement

WEBSEMINAIRE INTRODUCTION AU REFERENCEMENT

COMMENT OPTIMISER MA VISIBILITÉ SUR LE WEB? AMÉLIORER MON RÉFÉRENCEMENT

Référencement Google en 2013, faisons un point!

ENDNOTE X2 SOMMAIRE. 1. La bibliothèque EndNote 1.1. Créer une nouvelle bibliothèque 1.2. Ouvrir une bibliothèque EndNote 1.3. Fermer une bibliothèque

L identification par radio fréquence principe et applications

Académie Google AdWords

Observatoire de l e-assurance. E-assurance: synthèse du bilan Juin 2010

FORMATION / CREATION DE SITE WEB / 4 JOURNEES Sessions Octobre 2006

Transcription:

Recherche d information : contours et bonnes pratiques Pr. Mohand Boughanem bougha@irit.fr http://www.irit.fr/~mohand.boughanem Université Paul Sabatier de Toulouse Laboratoire IRIT, UMR5055 118 Route de Narbonne F-31062 Toulouse 1 Plan Comprendre ce qu est la Recherche d information (RI) Intérêt et contours Fonctionnement «interne» d un système de RI Cas pratique : Recherche d information sur le Web Bonnes pratiques en tant que producteur d information Valoriser son site Bonnes pratiques en tant que consommateur de l information Utiliser le bon outil Conclusion : nos activités de recherche en RI 2 1

Qu est ce que la RI? Recherche d information (RI) Ensemble des méthodes, procédures et techniques pour l acquisition, l organisation, le stockage, la recherche et la sélection d information (données, texte, son, images, vidéo). 3 Exemples de Systèmes de RI 4 2

Volume sans cesse croissant Gros volumes d informations (numériques) créées toutes les minutes 1% sur l Internet (localisé par les moteurs) 99% dans des Intranet (entreprises, laboratoires, ) 5.. en perpétuelle croissance Exaoctets 1 800 1 600 1 400 1 200 1 000 800 600 400 200 KiloOctets 10 3 MegaOctets 10 6 GigaOctets 10 9 TeraOctets 10 12 Facteur de 10 en 5 ans! PetaOctets 10 15 DVD RFID ExaOctets 10 18 Digital TV ZettaOctets 10 21 MP3 players Digital cameras Camera phones, VoIP Medical imaging, Laptops, Data center applications, Games Satellite images, GPS, ATMs, Scanners Sensors, Digital radio, DLP theaters, Telematics Peer-to-peer, Email, Instant messaging, Videoconferencing, CAD/CAM, Toys, Industrial machines, Security systems, Appliances 0 2006 2007 2008 2009 2010 2011 6 Source: IDC, 2008 3

.. produite par tout le monde.. L information (numérique) est disponible partout 7 dans tous les domaines d activités Domaines d application Internet (Web, Forum/Blog search, News) Entreprises Bibliothèques numériques «digital library» Domaine spécialisé (médecine, droit, littérature, ) Nos propres PC (Yahoo! Desktop search) 8 4

la RI a un coût Rechercher une information a un coût «On» passe (en moyenne) 35% de son temps à rechercher des informations Les managers y consacrent 17% de leur temps Les 1000 grandes entreprises (US) perdent jusqu à $2.5 milliards par an en raison de leur incapacité à récupérer les bonnes informations Nécessité de développer des systèmes automatisés efficaces permettant : Collecter, Organiser, Rechercher, Sélectionner 9 Contours de la RI Données, information et connaissance Tâches de recherche d information 10 5

Contours: Données-Information-Connaissance Système de gestion de Base de données Système de Recherche d information Données : Chaîne de caractères/valeurs associées à des objets, des personnes et des événements : (15) Connaissance : Information apprise, découverte, comprise et partagée par une communauté (étant donné qu on est à Rabat 15 C en mars c est plutôt froid) Information : Signification (explication/description) des données, données intelligible (15 C - relevé à 18 h, sous abri, à Rabat) (information/data mining) 11 Veille a besoin des trois domaines Système de gestion de Base de données Système de Recherche d information information/data mining 12 6

Contours : Tâches de recherche d information (1/2) Recherche adhoc (classique) Je cherche des infos (pages web) sur «veille économique» Requête «veille économique» SRI renvoie une liste de documents Classification /catégorisation (clustering) Regrouper les informations (documents) selon un ou plusieurs Question-réponses (Query answering) Chercher des réponses à des questions par exemple «qui est averroes?» «Quel est la longueur du Nil?» 13 14 7

Contours : Tâches de recherche d information (2/2) Filtrage d information (filtering/recommendation) Dissémination sélective d information 15 Filtrage d information Sources Utilisateurs ayant des besoins définis au préalable = Profils d1 dnd2 d1 Flot de documents SFI/push Terminologie : Push Filtrage d information Recommandation Dissémination sélective d information Système d alerte 16 8

17 Contours : Tâches de recherche d information (2/2) Filtrage d information (filtering/recommendation) Dissémination sélective d information Croisement de langues (cross language) Rechercher des infos écrites dans une langue autre que celle de la requête Requête en français retour documents en arabe Métat-moteurs (Meta-search) Moteurs interrogeant plusieurs moteurs. 18 9

Plan Comprendre ce qu est la Recherche d information (RI) Intérêt et contours Fonctionnement «interne» d un système de RI Cas d étude : Recherche d information sur le Web Bonnes pratiques en tant que producteur d information Bonnes pratiques en tant que consommateur de l information 19 Comprendre le fonctionnement d un SRI I=Besoin en information Q D SRI -- --- -- ------- -- --- -- --- --- ------ -- --- ------ ------ --- ------ ------ -------------- ------ ----- ----- ----- ------ ----- ------ ------ --- --------- --- ------ ------ ------ ------ ------ ----- ----- ----- ------ ------ ------ Sélectionner dans une collection les informations pertinentes répondant aux besoins en information des utilisateurs 20 10

Fonctionnement d 1 SRI : Ouvrir la boîte noire I=Besoin en information -- --- -- ------ -- --- -- --- --------- ---- --- ------ ------ ------ ------ -------------- ------ ----- ----- ----- ------ ------- -- --- SRI ------ ------ ------ ------ ------ ------ ------ ----- ----- ------ ------ -- --- Besoin ------ ----- ------ Traitement Traitement = Indexation Liste de mots Comparaison Index (mots clés) Visualisation Fichier inverse 21 22 11

23 Traitement - indexation Décomposer le texte Décomposer les mots Supprimer les mots communs Basé sur une short list the, and, or Radicaliser les mots Regrouper les mots Title: Rabat Corps du texte : Rabat or Ribat is located in the atlantic Ocean Rabat, Rabat, or, Ribat, is, located, in, the, atlantic, Ocean Rabat, Rabat, Ribat, located, atlantic, Ocean Rabat, Rabat, Ribat, locate, atlantic, Ocean Rabat 2, Ribat 1, locate 1, atlantic 1, Ocean 1 24 12

Organiser les termes et les documents dans un Fichier Inverse d1: So let it be with Caesar. The noble Brutus hath told you Caesar was ambitious d2: I did enact Julius Caesar I was killed i' the Capitol; Brutus killed me. Traitement = Indexation Term N docs Tot Freq Ptr ambitious 1 be 2 brutus 2 2 3 capitol 5 caesar 2 3 6 did enact hath I 1 2 i' it julius killed 1 2 let me noble so the 2 2 told you was 2 2 with Doc # Freq 2 2 1 2 1 2 d1: So let it be with Caesar. The noble Brutus hath told you Caesar was ambitious d2: I did enact Julius Caesar I was killed i' the Capitol; Brutus killed me. d3: I did enact Julius Caesar I was killed i' the d2: Capitol; I Brutus did enact d4: killed Julius me. Caesar I did enact I was Julius killed Caesar i' the d5: I Capitol; was killed I Brutus did i' the enact Capitol; killed Julius me. Caesar Brutus I killed was killed me. i' the Capitol; Brutus d6: killed me. I did enact Julius Caesar I was killed i' the Capitol; Brutus d7: killed me. I did enact Julius Caesar I was killed i' the Capitol; Brutus d8: killed me. I did enact Julius Caesar I was killed i' the Capitol; Brutus d9: killed me. I did enact Julius Caesar I was killed i' the Capitol; Brutus killed me. 25 Répondre à une demande (requête) caesar Term N docs Tot Freq Ptr ambitious 1 be 2 brutus 2 2 3 capitol 5 caesar 2 3 6 did enact hath I 1 2 i' it julius killed 1 2 let me noble so the 2 2 told you was 2 2 with Doc # Freq 2 2 1 2 1 2 d1: So let it be with Caesar. The noble Brutus hath told you Caesar was ambitious d2: I did enact Julius Caesar I was killed i' the Capitol; Brutus killed me. d3: I did enact Julius Caesar I was killed i' the d2: Capitol; I Brutus did enact d4: killed Julius me. Caesar I did enact I was Julius killed Caesar i' the d5: I Capitol; was killed I Brutus did i' the enact Capitol; killed Julius me. Caesar Brutus I killed was killed me. i' the Capitol; Brutus d6: killed me. I did enact Julius Caesar I was killed i' the Capitol; Brutus d7: killed me. I did enact Julius Caesar I was killed i' the Capitol; Brutus d8: killed me. I did enact Julius Caesar I was killed i' the Capitol; Brutus d9: killed me. I did enact Julius Caesar I was killed i' the Capitol; Brutus killed me. 26 13

Répondre à une demande : trier les documents Calculer un score de pertinence pour chaque document Prendre en compte plusieurs indicateurs : Fréquence du terme dans le doument (tf), sa fréquence dans la collection (idf), sa position dans le texte(p), taille du document (dl)... Score( D) fonction ( tf, idf, dl) 27 Plan Comprendre ce qu est la Recherche d information (RI) Intérêt et contours Fonctionnement «interne» d un système de RI Cas d étude : Recherche d information sur le Web Bonnes pratiques en tant que producteur d information Bonnes pratiques en tant que consommateur de l information 28 14

Web World Wide Web, communément appelé le Web, Toile, littéralement la «toile (d'araignée) mondiale» Ensemble de Pages Web connectées (reliées) Statique/Dynamique Distribué Documents sont volatiles (ERROR 404) Comporte de tout information avérée, contradictoire, fausse, obsolète, spam Structurée, semi-structurée (<TITLE>, <B>, <H1>, <H2>, etc.) Collections très volumineuses et hétérogènes Web : plus de 170 TO (10 12 octets) Google : Dizaine de milliards de Pages Millions d utilisateurs, efficacité des accès 29 Exemple de résultats d un moteur de recherche Normale Pub 30 15

Results 1-10 of about 7,310,000 for miele. (0.12 seconds) At the heart of your home, Appliances by Miele.... USA. to miele.com. Residential Appliances. Vacuum Cleaners. Dishwashers. Cooking Appliances. Steam Oven. Coffee System... www.miele.com/ - 20k - Cached - Similar pages Welcome to Miele, the home of the very best appliances and kitchens in the world. www.miele.co.uk/ - 3k - Cached - Similar pages page ] Das Portal zum Thema Essen & Geniessen online unter www.zu-tisch.de. Miele weltweit...ein Leben lang.... Wählen Sie die Miele Vertretung Ihres Landes. www.miele.de/ - 10k - Cached - Similar pages Herzlich willkommen bei Miele Österreich Wenn Sie nicht automatisch weitergeleitet werden, klicken Sie bitte hier! HAUSHALTSGERÄTE... www.miele.at/ - 3k - Cached - Similar pages Sponsored Links CG Appliance Express Discount Appliances (650) 756-3931 Same Day Certified Installation www.cgappliance.com San Francisco-Oakland-San Jose, CA Miele Vacuum Cleaners Miele Vacuums- Complete Selection Free Shipping! www.vacuums.com Miele Vacuum Cleaners Miele-Free Air shipping! All models. Helpful advice. www.best-vacuum.com Approche de base de la recherche sur le Web Besoin en info. Web Web Crawler/spider Miele, Inc -- Anything else is a compromise Miele Miele - Deutscher Hersteller von Einbaugeräten, Hausgeräten... - [ Translate this Herzlich willkommen bei Miele Österreich - [ Translate this page ] Search Indexation/Indexing Indexes Ad indexes 31 Bonnes pratiques Producteurs de l information Savoir référencer son site Mettre de bons indicateurs (mots clés) pour que son site (page) soit sélectionné(e) en tête des résultats? Optimiser son site (Search engine optimization (SEO )) Consommateurs Choisir le bon outil pour ma recherche Savoir l utiliser (interrogation) 32 16

Producteurs d info. : référencer son site Plusieurs moteurs proposent des liens gratuits Google http://www.google.com/addurl Bing http://www.bing.com/webmaster/submitsitepage.aspx DMOZ ( Open Directory ) http://www.dmoz.org/world/ Yahoo Directory http://fr.docs.yahoo.com/info/ajouter.html 33 Producteurs d info. : Optimiser son site Optimiser son site Mettre de bons indicateurs (mots clés) pour que son site (page) soit sélectionné(e) en tête des résultats Search engine optimization ( SEO ) Aussi : Search Engine Marketing ( SEM ) Sites à visiter http://en.wikipedia.org/wiki/search_engine_optimization http://fr.wikipedia.org/wiki/optimisation_pour_les_moteurs_de_recherche http://searchenginewatch.com http://www.abondance.com http://googleblog.blogspot.com Spamdexing vs. SEO 34 17

Producteurs d info. : optimiser son site Quels sont les facteurs/indicateurs utilisés par les moteurs de recherche pour trier (sélectionner) les pages Web? Beaucoup de facteurs plus de 200 La manière dont ces facteurs sont combinés est spécifique à chaque moteur de recherche, généralement «secrete» 35 Facteurs utilisés par les moteurs pour trier des pages (1/5) Deux groupes de facteurs Contenu de la page web (mots-clés dans la page web) Classement des pages dépend fortement de la localisation (position) du mot dans la page Titre page, mots dans ancre (anchor), domaine, URL, Meta 36 18

Mots dans le titre Mots dans le domaine Mots dans un lien(anchor) 37 META description META Keywords 38 19

Facteurs utilisés par le moteurs pour trier les pages (2/5) Deux groupes de facteurs Contenu de la page web (mots-clés dans la page web) Popularité du site/page web (PageRank)) PR(p)= f(nombre de sites pointant p, popularité de ces sites, ) wikipédia 39 - http://www.seomoz.org/ - http://www.seomoz.org/article/search-ranking-factors 40 20

Facteurs utilisés par les moteurs pour trier les pages (3/5) Mots dans le titre de la page (Keyword Use in Title Tag) Popularité du site (PageRank ) Mots dans les liens ( anchor ) provenant de l extérieur (Keyword Focused Anchor Text from External Links) Diversité des liens externes (Diversity of Link Sources) Fiabilité du domaine (fonction de la distance de votre site vis-à-vis d un site de confiance, cette liste est inconnue) Mots dans le nom du domaine (www.ensias.ma) (Keyword Use in the Root Domain Name ) Mots dans le nom du sous-domaine (mots.domaine.ma) (Keyword Use in the Root Domain Name ) 41 Facteurs utilisés par les moteurs pour trier les pages (4/5) Mots clés dans la balise H1 (Keyword Use in H1) Mots dans les balises H2, H3 Page URL Mots clés dans les Meta Description / Keywords Tags Mots dans le Body (Keyword Use in Body Text) HTML Validation 42 21

Facteurs utilisés par les moteurs pour trier les pages (5/5) Top 5 facteurs négatifs Serveur souvent inaccessible Contenu similaire ou dupliqué (copie de site) Liens vers des pages de qualité douteuse (Spam) Liens provenant de sites (courtier/ Vendeurs de liens) Sur-utilisation de mots clés D après Amit Singhal (Architecte de Google) lors de sa conférence à ECIR 2008 Google utilise 263 facteurs 43 Choix des mots selon leur fréquence d utilisation par les internautes Outils mesurant la popularité des mots Overture s Keyword Selector Tool (http://inventory.overture.com) WordTracker.com Trellian s KeywordDiscovery.com Google Adwords Google Trends Google Suggest 22

45 Bonnes pratiques : consommateur de l info Quel est le meilleur moteur de recherche? Il ya plus de 300 moteurs de recherche disponibles pour une utilisation libre. Chacun possède ses propres atouts Choisir son moteur selon ses besoins et sa tâche Utiliser les différentes possibilités du moteur (en particulier en terme d interrogation) 46 23

Choisir son moteur Mode d accès Mots (clés) : Google, Bing, Exalead, Annuaires : Yahoo, DMOZ, About, Mode de visualisation/présentation Liste linéaire à la google Classification (Clusty/ search-cube) Type de moteurs Généralistes vs. Verticaux (type de médias/thématiques) Autres facteurs : Nombre de pages/sites indexés, fraîcheur, type de documents: (PDF, Word, Excel, PowerPoint, ), temps de réponse et consistance (pas de spam!!) 47 48 24

Choisir son moteur Mode d accès Mots (clés) : Google, Bing, Exalead, Annuaires : Yahoo, DMOZ, About, Mode de visualisation/présentation Liste linéaire à la google Classification (Clusty/ search-cube) Type de moteurs Généralistes vs. Verticaux (type de médias/thématiques) Autres facteurs : Nombre de pages/sites indexés, fraîcheur, type de documents: (PDF, Word, Excel, PowerPoint, ), temps de réponse et consistance (pas de spam!!) 49 Accès par mots clés 50 25

Kartoo 51 Paul Nieuwenhuysen Grokker 52 Paul Nieuwenhuysen 26

Choisir son moteur Mode d accès Mots (clés) : Google, Bing, Exalead, Annuaires : Yahoo, DMOZ, About, Mode de visualisation/présentation Liste linéaire à la google Classification (Clusty/ search-cube) Type de moteurs Généralistes vs. Verticaux (type de médias/thématiques) Autres facteurs : Nombre de pages/sites indexés, fraîcheur, type de documents: (PDF, Word, Excel, PowerPoint, ), temps de réponse et consistance (pas de spam!!) 53 Type de moteurs (1/3) Généralistes Google, Yahoo, Bing, ask, AllTheWeb.com (http://www.alltheweb.com) Hybrid Engines -Métamoteurs : DogPile, MetaCrawler Multimedia Search Engines Image, Audio & Video Searching 54 27

Type de moteurs (2/3) Moteurs spécialisés (vertical search Engine) : «focus» sur un sujet, domaine, Finance (www.searchfinance.com) Technologie (www.knowledge storm.com) Droit (Legal Search Engines) Science : Scirus, CiteSeerX (citeseerx.ist.psu.edu) pour l informatique et IT Medical Search Engines (Medhunt (www.hon.ch/medhunt)) Travel Search Engines Chemfinder (www.chemfinder.com) Expert search finding Genomic information retrieval Geographic information retrieval 55 News Search Engines Google News Type de moteurs (3/3) Yahoo News (http://news.yahoo.com/) AltaVista News http://news.altavista.com/ Moteurs temps réel Twitter Topsy OneRiot Wowd 56 28

Trouver son moteur de recherche Search Engine Colossus http://www.searchenginecolossus.com Bonne liste de moteurs listés par pays et langue Search Engine Watch http://searchenginewatch.com/links/ Listes de moteurs selon leur domaine. Tous les moteurs de recherche http://www.allsearchengines.com/ and http://www.allsearchengines.com/complete.html 57 Utiliser les différentes les possibilités d interrogation Recherche d expression (" " double quotes) Opérateurs booléens : AND, OR, NOT Inclusion terme (+), exclusion terme (-) Connecteurs With, Near, ADJ Recherche sur des champs spécifiques Title: "information retrieval" url, filetype Title: "veille économique" filetype:pdf 58 29

Conclusion : Nos travaux actuels Recherche d information personnalisée/contextuelle Prendre en compte le contexte de l utilisateur (ses centres d intérêts, sa tâche, sa géo-localisation, temporelle) Détection d opinions Identifier les pages de type opinion puis classer les opinions (+) (-) Recherche d information sociale Prendre en compte annotation/jugements, distance sociale approbation/désapprobation des autres membres Recherche agrégée Construire la réponse à la question en s appuyant sur plusieurs sources Recherche dans les document XML 59 Recherche agrégée Query Information Nuggets Aggregated Result Information need 60 30

Merci 61 Smart (Cornell) Open-source MG (RMIT & Melbourne, Australia; Waikato, New Zealand), Lemur (CMU/Univ. of Massachusetts) Lucene (Nutch) Terrier (Univ Glasgow) 62 31