Robots.txt et URL avec des caractères spéciaux: le test



Documents pareils
Guide de création de site web optimisé

Intro: WordPress SEO Version Française

CAHIER DES CHARGES SITE WEB : Steve Mind Magicien Close-up & Mentaliste - 1 -

Optimiser WordPress pour le référencement naturel

Optimiser son référencement naturel avec e-majine

Inscription de votre site sur Google Configuration du sitemap et de Webmaster Tools pour PrestaBox

Comment récupérer toutes vos données perdues ou effacées gratuitement!

Concevoir une base de données

Trends. Médias sociaux et SEO - la force du contenu

Référencement naturel SEO

Référencement de votre site Web Google et autres moteurs de recherche (4ième édition)

Formation Découverte du Web

demander pourquoi mon site n'apparaît pas sur google ou pourquoi mon site n'est pas référencé par les moteurs de recherche?

Créer un site e-commerce avec PrestaShop Cloud Mise en place et suivi du projet

Piwik L'alternative Open Source en web analytique - Version numérique

MODE D EMPLOI WORDPRESS

FTP : File TRansfer Protocol => permets d envoyer des gros fichiers sur un serveur (ou de télécharger depuis le serveur)

GOOGLE, OUTILS EN LIGNE

Programme de la formation en référencement LYON/PARIS 2015

Comment créer un site web Proxy gratuitement!

La campagne de netlinking ou comment améliorer son indice

Jeudi 30 avril L art de bien référencer son site Internet

Performance Front-End

RÉFÉRENCEMENT NATUREL RENCONTRE DEVELOPR6 14 JUIN 2013

WordPress Référencement naturel (SEO) Optimiser. son référencement. Daniel Roch. Préface d Olivier Andrieu

Audit SEO. I / Les Tranquilles d Oléron

Le Top 20 (et quelques) des outils à utiliser en SEO en 2013

Logical Volume Manager (LVM)

SEO & WordPress. Neil McCarthy GOODNESS CONSEIL EN WEBMARKETING & RÉFÉRENCEMENT. Bâtiment Enerpôle Technopôle Izarbel BIDART

La recherche d'information sur Internet

REFERENCEMENT D'UN SITE SOUS JOOMLA. Joomla 2.5. Sommaire

Comment installer Viber et WhatsApp sur son ordinateur!

SOMMAIRE. 1. Comprendre les bases - référencement, indexation et positionnement - comment fonctionne Google pour indexer et référencer un site?

Le stockage local de données en HTML5

Les outils ROIstes du SEO

Eurateach labellisé par la région et le FAFIEC. Si vous remplissez les conditions suivantes : Votre entreprise compte moins de 250 salariés

Référencement Au Sein d un (gros) Site E-Commerce

Qu'est-ce qu'un moteur de recherche. Moteur de recherche sur Internet

PrestaShop Cloud. Créer un site e-commerce avec. PrestaShop Cloud. Mise en place et suivi du projet. Créer un site e-commerce avec

Etude de cas : PGE JEE V2

RAPPORT D'OPTIMISATION DU SITE INTERNET

Test de HSQLDB et Comparatif avec Sqlite

Comment personnaliser la présentation de mes factures, bons de préparation et de livraison?

Technocom

Support Google Analytics - 1 / 22 -

Optimisez vos contenus. Guide pour des éditeurs de sites web

Initiation à la recherche documentaire LA RECHERCHE SUR INTERNET


Créer et animer une boutique en ligne avec Wordpress (environnement PC et MAC)

Référencement naturel

Qu est ce que le référencement web?

1. Pourquoi? Les avantages d un bon référencement

INU Information et sites Web 10 avril 2015 SEO. Dominic Forest, Ph.D.

Réussir. son. référencement. web. Olivier Andrieu. Groupe Eyrolles, 2008, ISBN :

Google Webmaster Tools

Offre SEO/SMO. Le référencement au cœur de votre stratégie web marketing. Tous droits réservés Emencia

David BEDOUET, WebSchool Orleans. Cosmina TRIFAN, WebSchool Orleans

Guide Utilisateur Enregistrement d'un compte en ligne

CONNECTEUR PRESTASHOP VTIGER CRM

Comment évaluer et améliorer l'efficacité de mon site web? Croissance assurée. 8 mai Michel D Urso

16 septembre Lundi de l Economie l. rencement. Foix. CCI Ariège

En quoi consiste le REFERENCEMENT de votre site?

Glossaire suivi SEO. Glossaire suivi SEO. Document : Suivi SEO. Projet : Date : 18/02/15. Version : 1

Stratégie webmarketing

Note sur l'auteur. Référencer son site internet - Yann KERVAREC

CISCO, FIREWALL ASA, CONFIGURATION ET ADMIN.

Logiciels de référencement

Référencement & Positionnement sur le WEB

Audit de site web. Accessibilité

Questions fréquemment posées

Formation Communiquer et être vu sur Internet - Webcomm

Garantie de crédit aux entreprises de jeu vidéo

Activité sur Meteor. Annexe 1 : notion de client-serveur et notion de base de données

Notice d installation du patch Lia 8.20

Programme Type de Formation SEO

COMPTE REDIRECTION ALIAS RÉPONDEUR FILTRE SPAM AUTORISATIONS.

Kaizen Marketing Group Web Agency. Kaizen Marketing. - Stéphanie Héline-

Collecter de nouveaux Leads avec Twitter

Mesurer le retour sur investissement

Édu-groupe - Version 4.3

Dopez votre présence en ligne grâce aux Médias Sociaux

Noms de domaine et référencement

Si vous estimez le contenu de cette page pertinent, faites +1 ou j'aime : 0 Like 330 likes. Sign Up to see what your friends like.

Dans cette Unité, nous allons examiner

1. Introduction Création d'une requête...2

Les sites de presse en ligne et le moteur Google

L introduction à la thèse

LES ECRITS DU WEB AGENCE DE WEBMARKETING GOOGLE-FRIENDLY

Virtualisation, licences, multicoeurs,...

Google Adresses. Validez la fiche de votre entreprise ou organisation sur Google Maps

RAPPORT AUDIT SEO. Élaboré à l'attention de : Monsieur Greber Élaboré par : Cédric Peinado

Création d'un site dynamique en PHP avec Dreamweaver et MySQL

TP réseaux 4 : Installation et configuration d'un serveur Web Apache

Chapitre 2 Créer son site et ses pages avec Google Site

Transcription:

Robots.txt et URL avec des caractères spéciaux: le test Author : admin Date : 25 mars 2015 Bien que le robots.txt ne soit pas toujours respecté, c'est malgré tout un élément indispensable pour éviter que Google crawl des URL sans intérêt pertinentes, et provoque des dommages collatéraux. J'ai récemment eu un problème bien particulier pour un client, des URL bloquées par le fichier robots.txt et qui malgré tout se sont retrouvées crawlées, et indexées. Cela était du à l'encodage des URL, mais sur une portion bien spécifique de l'url: la chaîne de paramètres (query_string pour les intimes). J'ai donc réalisé un test grâce à GoogleWebmaster Tools pour voir comment Google traitait les URL encodées. Le CMS utilisé était RBSChange (plateforme Ecommerce) Traitement des URL sans chaîne de paramètres Sans revenir sur l'origine des URL encodées, voici le test que j'ai effectué pour voir la manière dont Googlebot traitait ce type d'url avec le fichier robots.txt. En l occurrence, cela concerne des URL contenant des crochets: "[ ]". Supposons une URL de ce type: /categorie[19]/mapage.html Caractères non encodés: Disallow: /categorie[19]/mapage.html --> ça fonctionne, l'url est bien bloquée. 1 / 6

Caractères encodés: Disallow: /categorie%5b19%5d/mapage.html --> ça ne fonctionne pas, l'url n'est pas bloquée... Traitement des URL avec chaîne de paramètres J'ai cette fois-ci utilisé une URL avec une chaîne de paramètres et des crochets dans les 2 / 6

paramètres, puisque cela peut se produire sur RBSChange par exemple. Voici l'url testée: /categorie?id=[19] Caractères non encodés: Disallow: /categorie?id=[19] --> ça ne fonctionne pas, l'url n'est pas bloquée... Caractères encodés: Disallow: /categorie?id=%5b19%5d --> ça fonctionne, l'url est bloquée! 3 / 6

Robots.txt et caractères spéciaux Drôle de comportement entre l'url de la requête et sa chaîne de paramètres! Quand on a des caractères [ ] dans la REQUEST_URI, il ne faut pas les encoder; quand on en a dans la chaîne de paramètres, il faut les encoder... [ devient alors %5B, et ] devient %5D. J'ai testé d'autre caractères spéciaux afin de voir si ils étaient les seuls concernés par ce problème, et il semblerait que oui... - voici les caractères spéciaux qui n'ont pas besoin d'être encodés, où qu'ils se trouvent: + & ( ),. / : ; =? @ ' ~ %! Cela parait assez logique pour le slash et les sous répertoires ainsi que le point d'interrogation et le signe & qui sont utilisés pour passer les paramètres d'url. - à l'inverse, voici les caractères spéciaux qu'il faut encoder systématiquement: espace, ",, \, ^, {, }, - et ceux qu'il faut encoder uniquement quand ils sont présents dans la chaîne de paramètres: [ ] Récapitulatif: Caractère Codage URL REQUEST_URI QUERY_STRIN G Espace %20 %20 %20! %21!! " %22 %22 %22 4 / 6

% %25 % % & %26 & & ( %28 ( ( ) %29 ) ) + %2B + + %2C. %2E.. / %2F / / : %3A : : ; %3B ; ; %3E %3E %3E? %3F?? @ %40 @ @ [ %5B [ %5B %5C %5C %5C ] %5D ] %5D ^ %5E %5E %5E ' %60 ' ' { %7B %7B %7B %7C %7C %7C } %7D %7D %7D ~ %7E ~ ~ Et les caractères accentués? Le test vient d'être complété pour les caractères accentués: il faut les encoder où qu'ils se trouvent, sinon les URL seront crawlées par Google d'après ce test: 5 / 6

Powered by TCPDF (www.tcpdf.org) Blog SEO - Y'a pas de quoi // Le SEO côté technique /wp-admin/a?èéàùô est bien bloqué avec la ligne suivante: Disallow:/wp-admin/a?%C3%A8%C3%A9%C3%A0%C3%B9%C3%B4 mais pas avec cette ligne: Disallow:/wp-admin/a?èéàùô What else? Alors, bug du parser de Google? En tout cas, mes URL avec crochets dans la chaîne de paramètres sont maintenant bien bloqués. Vérifiez donc vos fichier robots.txt et les URL qui contiendraient des caractères à encoder Je vous recommande également ce billet de Sacha Tyzon de l'agence SeoH qui est très complet sur cet outil de test de robots.txt proposé par Google: http://www.seoh.fr/blog/test-outil-robots-txt-gwt.html 6 / 6