Recherche Indexée. Indexation automatique



Documents pareils
Publier dans la Base Documentaire

Gestion de contenu d un site web avec TYPO3 Manuel de l administrateur

MANUEL WORDPRESS. Objectif: Refonte d un site web sous Wordpress I PRE-REQUIS: 1 / Créer un backup (sauvegarde) du site:

Construction d un Site Internet Dynamique avec Joomla René-Yves Hervé, Ph.D.

Joomla! Création et administration d'un site web - Version numérique

Publier un Carnet Blanc

MEDIA NAV Guide de téléchargement de contenus en ligne

Fiche Technique. MAJ le30/03/2011

Créer un site Web : mode d emploi Sous SPIP, avec le squelette «établissement» de l académie de Versailles

Formation PROFIS Installation. Module 1 : Plateforme générale. PROFIS Installation I Plateforme générale I MKT E2 CM I

1 / Introduction. 2 / Gestion des comptes cpanel. Guide débuter avec WHM. 2.1Créer un package. 2.2Créer un compte cpanel

GUIDE D INSTALLATION. Portaneo Enterprise Portal version 4.0

Tutoriel TYPO3 pour les rédacteurs

Module pour la solution e-commerce Magento

Création d'un site dynamique en PHP avec Dreamweaver et MySQL

MODE D'EMPLOI DU CONTRIBUTEUR WEB UAPV "CONTRIBUER DANS UNE RUBRIQUE DU SITE WEB"

Installation / Sauvegarde Restauration / Mise à jour

MON 1ER JEU-CONCOURS SUR FACEBOOK

Préface des auteurs 17. Àpropos decelivre 19. Introduction 21

Pour configurer le Hitachi Tecom AH4021 afin d'ouvrir les ports pour "chatserv.exe", vous devez suivre la proc

Guide d installation du logiciel Proteus V.8 Sous Windows Vista, 7, 8

Service d'authentification LDAP et SSO avec CAS

PARAMETRAGE D INTERNET EXPLORER POUR L UTILISATION DE GRIOTTE

Manuel du composant CKForms Version 1.3.2

Remarques préliminaires L installation a été testée sur XP, Vista et Windows 7.

Atelier Le gestionnaire de fichier

PARTAGER UN ANNUAIRE COLLECTIF DE SIGNETS AVEC DEL.ICIO.US

COURS 5 Mettre son site en ligne! Exporter son site avec WordPress Duplicator Installer un logiciel FTP Faire le suivi des visites de son site avec

DECOUVRIR. Le portail La recherche Les présentations & documents

Plateforme PAYZEN. Intégration du module de paiement pour la plateforme Magento version 1.3.x.x. Paiement en plusieurs fois. Version 1.

ContactForm et ContactFormLight - Gestionnaires de formulaire pour Prestashop Edité par ARETMIC S.A.

ZOTERO Un outil gratuit de gestion de bibliographies

BIRT (Business Intelligence and Reporting Tools)

Groupe Eyrolles, 2003, ISBN : X

Certificats de signature de code (CodeSigning)

Pré-requis pour les serveurs Windows 2003, Windows 2008 R2 et Windows 2012

POVERELLO KASONGO Lucien SIO 2, SISR SITUATION PROFESSIONNELLE OCS INVENTORY NG ET GLPI

Publication dans le Back Office

Chapitre 1 Windows Server

Création d un formulaire de contact Procédure

Projet en nouvelles technologies de l information et de la communication

Pré-requis serveur d'applications AppliDis pour Microsoft Windows Server 2012

Maarch V1.4

Organiser les informations ( approche technique )

1. Installation du Module

Transfert de fichiers (ftp) avec dreamweaver cs5 hébergement et nom de domaine. MC Benveniste

Netstorage et Netdrive pour accéder à ses données par Internet

pas à pas prise en main du logiciel Le Cloud d Orange - Transfert de fichiers sur PC et MAC Le Cloud

Acronymes et abréviations. Acronymes / Abbréviations. Signification

Access 2007 FF Access FR FR Base

A.-M. Cubat Mise à jour de PMB Passer à une version plus récente du logiciel Page 1 Source :

Installation de SharePoint Foundation 2013 sur Windows 2012

Date M.P Libellé Catégorie S.Catégorie Crédit Débit Solde S.B

WinTask x64 Le Planificateur de tâches sous Windows 7 64 bits, Windows 8/ bits, Windows 2008 R2 et Windows bits

Point 3.7. Publier des contenus dans un portail e-sidoc. Janvier 2013 Documentation détaillée V 2.2

Guide d utilisation 2012

Le PROXY: l identité Internet du CNUDST

Guide de démarrage IKEY 2032 / Vigifoncia

Comment accéder à d Internet Explorer

Installation de SQL Server Reporting Services avec l intégration dans un site Windows SharePoint Services V3

CMS Made Simple Version 1.4 Jamaica. Tutoriel utilisateur Récapitulatif Administration

WysiUpStudio. CMS professionnel. pour la création et la maintenance évolutive de sites et applications Internet V. 6.x

Google Merchant Center

MAÎTRISE DE L ENVIRONNEMENT WINDOWS VISTA

Débuter avec TYPO3. This document is published under the Open Content License available from

Placez vous au préalable à l endroit voulu dans l arborescence avant de cliquer sur l icône Nouveau Répertoire

Espace Client Aide au démarrage

Tutoriel code::blocks

La base de données dans ArtemiS SUITE

S y m M a i l i n g. S o l u t i o n d e - m a i l i n g. SymMailing est un outil professionnel de création et de gestion de campagnes d ing.

L ARBORESCENCE. Qu est-ce qu un dossier? L arborescence?

Tutorial Terminal Server sous

Création d un site web avec Nvu

Restaurer des données

Extended communication server 4.1 : VoIP SIP service- Administration

La base de données XML exist. A. Belaïd

INSTALLATION Advantage Database Server

Support Web Administration et gestion des portails web des facultés - Université A.Mira Béjaia -

_ PARAMETRE DU COMPTE _ ACCEUIL. 1 ere Etape «Créer un compte principal» Créer un compte secondaire. Ouvrir un compte principal

La gestion des dossiers sous Windows Vista, W7, W8.

Tutorial pour l installation et l utilisation de CREO et de Windchill

LES NOTES D PROCEDURE DE CONNEXION WIFI AU CAMPUS. Ce document décrit la procédure à suivre pour se connecter en WIFI au campus.

Créer et partager des fichiers

KWISATZ MODULE PRESTASHOP

Description des pratiques à adopter pour la mise à jour du layout en utilisant le gestionnaire de conception de Sharepoint 2013

Guide d utilisation. Table des matières. Mutualisé : guide utilisation FileZilla

TD3 - Facturation avec archivage automatisé

FlashWizard v4.5b PRO

Tutorial sur SQL Server 2000

PREMIERE UTILISATION D IS-LOG

Magento. Magento. Réussir son site e-commerce. Réussir son site e-commerce BLANCHARD. Préface de Sébastien L e p e r s

Apprendre à gérer son serveur web grâce à Windows Server 2008 R2

Guide d utilisation de «Partages Privés»

DEPLOIEMENT MICROSOFT WINDOWS

cbox VOS FICHIERS DEVIENNENT MOBILES! INTERFACE WEB MANUEL D UTILISATION

Transcription:

Recherche Indexée Indexation automatique

SOMMAIRE INTRODUCTION... 3 1 L EXTENSION INDEXED_SEARCH... 3 1.1 INSTALLATION... 3 1.2 CONFIGURATION A L INSTALLATION... 3 1.3 CONFIGURATION DU TEMPLATE PRINCIPAL... 3 1.4 CONFIGURATION DU TEMPLATE HTML... 3 1.5 CREATION DE CONFIGURATION(S) D INDEXATION... 4 2 L EXTENSION CRAWLER... 4 2.1 INSTALLATION... 4 2.2 CONFIGURATION... 4 2.2.1 Compte _CLI_crawler... 4 2.2.2 TSconfig de la page racine du site... 5 2.2.3 Définir les URLs à parcourir... 5 2.2.4 Lancement du crawler... 6 3 INDEXATION DE CONTENUS DE SITES DISTANTS... 7 4 LE CRAWLER EN BACKEND... 7 5 FORMULAIRE DE RECHERCHE... 7 5.1 SYSTEME PAR DEFAUT... 7 5.2 UTILISATION DE L EXTENSION MACINA_SEARCHBOX... 8 5.3 AUTOCOMPLETION DES TERMES SAISIS... 8 6 PROBLEMES POSSIBLES... 8 6.1 PAS D INDEXATION... 8 6.2 FICHIERS A EXPLORER... 8 2

Introduction Ce document explique comment installer, configurer et utiliser la rechercher indexée de Typo3. Il explique comment utiliser l extension crawler pour indexer les pages de façon automatique. 1 L extension indexed_search 1.1 Installation Cette extension est intégrée à Typo3, il n y a qu à l installer à partir du gestionnaire d extensions : 1.2 Configuration à l installation Full Text Data Length : si différent de 0, indique la taille limite des données indexées. Cela permet d économiser de l espace en base de données mais peut également limiter les possibilités de recherche. Disable Indexing in Frontend : par défaut, l indexation des pages se fait en les consultant en frontend. Cocher cette option pour désactiver ce processus, dans le cas où on envisage une indexation lancée en backend ou par un CRON. 1.3 Configuration du template principal Code à ajouter au setup du template de la page racine du site : #### Recherche indexée #### // L indexation se fait sur les pages mises en cache => mettre les pages en cache Page.config.no_cache = 0 // indexed search activée page.config.index_enable = 1 // On utilise ce template plugin.tx_indexedsearch.templatefile = fileadmin/templates/indexed_search.tmpl // Ne pas afficher les explications plugin.tx_indexedsearch.show.rules = 0 // Ne pas afficher le lien vers la recherche avancée plugin.tx_indexedsearch.show.advancedsearchlink = 0 // Indexer des documents de type doc,pdf,... // page.config.index_externals = 1 // ID de la page de départ de l'arboresence où on recherche (-1 => toute l arborescence) plugin.tx_indexedsearch.search.rootpidlist = -1 // Afficher le num. des resultats plugin.tx_indexedsearch.show.resultnumber = 1 // Si besoin de tt_news, autoriser leur mise en cache plugin.tt_news.allowcaching = 1 1.4 Configuration du template HTML Dans les templates HTML sur lesquels sont basées les pages du site, ajouter les marqueurs suivants autour des parties qui doivent être indexées : <!--TYPO3SEARCH_begin--> Mon Contenu <!--TYPO3SEARCH_end--> Si ces marqueurs sont absents, tout le contenu de la page sera indexé. 3

Il est possible d utiliser plusieurs fois ce couple de marqueurs dans la même page, pour délimiter plusieurs zones à indexer. 1.5 Création de configuration(s) d indexation Lorsqu on installe l extension indexed_search, il devient possible de créer des pages de type indexing configuration, qui stockeront des configurations d indexation. Créer un dossier de type sysfolder qui stockera ces enregistrements Créer une page de type indexing configuration, qui stockera la configuration pour indexer les pages du site : Renseigner le titre, le type (pagetree), choisir la page racine (root page) et la profondeur à laquelle il faut étendre l indexation, à partir de la page racine (depth). S assurer que la case disabled est décochée (visible si on affiche les options secondaires) Note : les enregistrements de ce type sont stockés dans la table index_config. 2 L extension crawler L extension crawler permet de parcourir des URL en effectuant un traitement. Nous allons l utiliser dans le cadre de la recherche indexée pour parcourir les URL dont nous voulons indexer le contenu. On peut se passer de cette extension si on envisage d indexer les pages en allant les consulter manuellement en frontend (cas d un site avec peu de pages dont le contenu change peu souvent). 2.1 Installation Télécharger et installer l extension crawler. 2.2 Configuration 2.2.1 Compte _CLI_crawler Créer un compte utilisateur backend dont le login est _cli_crawler, le mot de passe peut être quelconque, ne renseigner aucun autre champ. 4

2.2.2 TSconfig de la page racine du site A placer dans la partie TSconfig de la page racine du site, en adaptant au site concerné : tx_crawler.crawlercfg.paramsets { language = &L=[ _TABLE:pages_language_overlay;_FIELD:sys_language_uid] language.procinstrfilter = tx_indexedsearch_reindex // A adapter : URL du site language.baseurl = http://www.mon_site.fr/test/ // A adapter : _PID = ID du dossier contenant les news tt_news = &tx_ttnews[tt_news]=[_table:tt_news;_pid:51] tt_news.procinstrfilter = tx_indexedsearch_reindex tt_news.chash = 1 // A adapter : ID de la page affichant une seule news tt_news.pidsonly = 53 } 2.2.3 Définir les URLs à parcourir Dans le module Info, choisir la page racine du site puis site crawler dans la liste déroulante du haut. Cliquer sur Re-indexing [tx_indexedsearch_reindex] pour indiquer le traitement à effectuer (1) Cliquer sur update (2), la partie URLs est renseignée (3) Cliquer sur Crawl URLs (4), s assurer que le nombre d URL correspond à notre attente et cliquer sur continue. Cette opération alimente la table tx_crawler_queue, dans laquelle on peut éventuellement faire un suivi des opérations. 5

2.2.4 Lancement du crawler Pour lancer le crawler (et donc l indexation) en ligne de commande, ou par une tâche CRON : Modifier le fichier typo3conf/ext/crawler/cli/crawler_cli.phpsh en remplaçant la ligne : define('path_thisscript',$_env['_']?$_env['_']:$_server['_']); par la ligne define('path_thisscript',$_server['argv'][0]); Tester que le traitement fonctionne en lançant le crawler en ligne de commande, exemple sous windows : Attention : mentionner le chemin absolu du script crawler_cli.phpsh. Attention : ce traitement peut nécessiter de modifier la directive de configuration de PHP max_execution_time (dans php.ini), pour que le script ait le temps de s exécuter. Lors de l exécution du traitement, la planification de la prochaine indexation est faite (update de la table tx_crawler_queue).. On peut le voir en allant dans le module liste/<dossier de stockage des configurations d indexation>/<configuration d indexation> On peut voir la date et l heure à partir de laquelle la prochaine indexation pourra avoir lieu. Cela dépend de la valeur du facteur how often would you like a re-index. Décocher la case next indexing is scheduled pour pouvoir relancer le crawler immédiatement. On peut suivre le traitement en base dans la table tx_crawler_queue : 1 : la 1 ère tâche prévue (enregistrée en base quand clic sur crawl ULRs en backend) 2 : 3 : le traitement crée un enregistrement qui planifie la prochaine tâche d indexation, scheduled indique l heure de l exécution. Si on lance le crawler avant, le traitement ne se lancera pas. Pour pouvoir relancer le traitement immédiatement, aller modifier la configuration d indexation en backend. 6

Exemple pour lancer le crawler avec un CRON : ajouter une des lignes suivantes à votre fichier de cron (édition : crontab e) # Toutes les 5 minutes, pour tests, impossible en prod 0,5,10,15,20,25,30,35,40,45,50,55 * * * * php /web/typo3/t3_ia33/typo3conf/ext/crawler/cli/crawler_cli.phpsh # Toutes les heures + 15 minutes 15 * * * * php /web/typo3/t3_ia33/typo3conf/ext/crawler/cli/crawler_cli.phpsh 3 Indexation de contenus de sites distants Créer une nouvelle page de type indexing configuration dans le dossier sysfolder de stockage des configurations d indexation Type : external URL External URL : donner l URL de départ d indexation, en pensant à mentionner le slash final, si besoin (http://www.mon_site.fr/) S assurer que la case disabled est décochée (visible si on affiche les options secondaires) 4 Le crawler en backend On y accède par le module web/info/<une_page>/site crawler Start crawling : configuration des pages à parcourir dans le site local o Faire un update (en cliquant au préalable sur Re-indexing) puis un crawl URL à chaque fois que la configuration TSconfig de la page est modifiée Crawler log : informations sur l état d indexation des URL à indexer o Flush entries : vide la table tx_crawler_queue et supprime donc les tâches d indexation Cli status o status Status = end : le traitement peut être lancé Status = start : le traitement est en cours On peut être dans un cas où le traitement a échoué et où le status vaut start. Dans ce cas, pour relancer le traitement, cliquer sur disable puis sur enable. o Cliquer sur run now pour lancer l indexation depuis le backend 5 Formulaire de recherche 5.1 Système par défaut L utilisation la plus basique consiste à insérer le plugin indexed_search comme élément dans une page, ce qui impose, si on utilise le plugin tel quel, de placer un lien dans un menu qui permet d accéder à la page de recherche. 7

5.2 Utilisation de l extension macina_searchbox Cette extension permet de placer facilement un formulaire de recherche sur toutes les pages du site. Cette extension n est pas un nouveau plugin de recherche, son fonctionnement est lié au plugin indexed search box qui doit donc être installé, configuré et inséré dans une page; quand on valide la recherche, la page appelée est celle qui contient ce plugin. Installer l extension macina_searchbox_2.2.0.t3x Dans le module template, choisir template analyser (liste déroulante en haut à droite) Cliquer sur macina_searchbox Copier la config de la partie [global] Passer en mode info/modify, coller le code dans le setup du template Renseigner pidsearchpage avec l ID de la page qui contient le plugin indexed search Pour le code complet à intégrer, se baser sur le fichier macina_searchbox_ts.txt Pour modifier l apparence du formulaire, modifier ce fichier : typo3conf\ext\macina_searchbox\pi1\template.htm Pour modifier l apparence du formulaire de indexed search et des résultats, modifier ce fichier : typo3\sysext\indexed_search\pi\indexed_search.tmpl Le fichier de ressource indexed_search_light.tmpl contient le code pour générer seulement l affichage des résultats de la recherche, sans réafficher le formulaire de recherche. 5.3 Autocomplétion des termes saisis Pour ajouter cette fonctionnalité : L extension indexed_search doit être installée Importer et installer l extension cb_indexedsearch_autocomplete_0.3.0.t3x Si l extension macina_searchbox est utilisée, modifier le template principal en ajoutant indexed search autocomplete à la partie include static (from extensions). Eventuellement, modifier cette feuille de style pour personnaliser l apparence de l extension /res/cb_indexedsearch_autocomplete.css 6 Problèmes possibles 6.1 Pas d indexation Si les pages ne s indexent pas, essayer d installer l extension-patch suivante : dvdg_indexedsearch_patch_0.0.1.t3x 6.2 Fichiers à explorer Les fichiers suivants contiennent des traitements relatifs au crawler et à la recherche indexée : typo3conf/ext/crawler/class.tx_crawler_lib.php : definition d une classe de librairie de fonctions pour le crawler. t3lib/class.t3lib_div.php : fsockopen sur des URL externes (ligne 2356), fonction geturl 8