X-Robots-Tag : directive pour bloquer les robots dans l'entête HTTP : explications
Par Olivier Duffez, jeudi 13 décembre 2007
Pour bloquer l'indexation de certaines pages spécifiques d'un site, il suffit d'utiliser la balise meta robots noindex. Mais comment faire avec des documents qui ne sont pas au format HTML (documents PDF, audio, Word, Excel, Powerpoint, ... et pourquoi pas non plus des flux RSS/Atom) ? Google et Yahoo gèrent la directive X-Robots-Tag qui se déclare directement dans l'entête HTTP, ce qui le rend utilisable avec n'importe quel format de document. Voici quelques précisions sur cette fonctionnalité...
L'entête HTTP, qu'est-ce que c'est ?
Il s'agit d'informations envoyées par le serveur web à celui qui cherche à accéder à un document (que ce soit le navigateur d'un internaute, le robot d'un moteur de recherche ou n'importe quoi d'autre). Une de ces informations est le code de statut HTTP, dont les valeurs les plus connues sont les suivantes :
- 200 : le document a été trouvé, il est bien disponible
- 301 : le document n'est plus disponible à l'adresse demandée, il a définitivement changé d'adresse (c'est-à-dire d'URL). On appelle ça une redirection permanente.
- 302 : le document n'est plus disponible à l'adresse demandée, il a temporairement changé d'adresse (c'est-à-dire d'URL). On appelle ça une redirection temporaire.
- 404 : le document est introuvable à l'adresse indiquée
Il y a bien d'autres codes (consultez la liste des codes HTTP si vous voulez plus de détails) mais l'entête HTTP peut contenir plein d'autres informations :
- le nom et la version du serveur web (exemple :
Server: Apache/2.0.59 (Unix)) - la date de dernière modification du document (exemple :
Last-Modified: Wed, 26 Sep 2007 21:19:04 GMT) - la taille du documents, en octets (exemple :
Content-Length: 7854) - le type de document (exemples :
Content-Type: text/htmlouContent-Type: image/gif) - et désormais la valeur du tag intitulé X-Robots-Tag
Valeurs possibles du tag X-Robots-Tag
Un peu comme la balise meta robots qui peut contenir plusieurs valeurs, sa version HTTP peut contenir les valeurs suivantes :
- noindex : indique au robot qu'il ne faut pas indexer la page. Cela ne signifie pas que le robot ne va pas la crawler : pour cela il faut utiliser le fichier robots.txt
- nofollow : indique au robot qu'il ne faut pas suivre les liens dans la page. Cela signifie que Google n'ira pas crawler les pages liées par la page contenant cette balise meta robots. Même si Google ne le précise pas dans son article, les moteurs ne tiendront pas non plus compte des liens présents sur la page dans leur algorithme (par exemple celui du PageRank).
- nosnippet : indique au robot qu'il ne faut pas afficher de descriptif (snippet) dans la page de résultats. J'ai du mal à voir l'intérêt pour un webmaster d'utiliser cette possibilité puisque ce descriptif permet d'inciter l'internaute à cliquer sur le résultat (peut-être qu'il existe des cas où le descriptif créé par le moteur n'est pas assez pertinent aux yeux du webmaster).
- noarchive : indique au robot qu'il ne faut pas laisser l'accès à la version en cache. Le lien "En cache" dans la page de résultats ne sera donc pas affiché. Ceci peut servir à ceux qui passent leurs contenu d'une version publique accessible à une version archivée payante (sites de journaux par exemple).
- unavailable_after:date : indique au robot que la page ne doit pas ressortir dans les résultats après la date indiquée
Tout comme la balise meta, il est possible de combiner plusieurs valeurs en les séparant par des virgules, par exemple : X-Robots-Tag: noarchive, nosnippet
Cette directive HTTP a été introduite par Google en juillet 2007. Depuis décembre 2007, Yahoo la supporte également (source).
Vérifier le contenu de l'entête HTTP
Si vous souhaitez voir le contenu de l'entête HTTP, par exemple pour vérifier que votre implémentation de X-Robots-Tag est correcte, il suffit d'utiliser un des nombreux outils à votre disposition :
- des outils en ligne comme celui sur WebRankInfo : analyse de l'entête HTTP (header)
- des outils intégrés au navigateur comme le propose le plugin Web Developer pour Firefox
- des logiciels spécialisés
Discussion dans le forum : X-Robots-Tag

Ajoutez ce blog à vos favoris Technorati !




Commentaires
1. Le jeudi 13 décembre 2007 à 12:13, par Victor BRITO
Ajouter un commentaire
Les commentaires pour ce billet sont fermés.
A lire aussi dans l'actualité WebRankInfo
Yahoo vient d'annoncer que son robot allait désormais gérer les options avancées du fichier robots.txt qui permet aux webmasters d'indiquer quels fichiers ou répertoires doivent être exclus du crawl.
Yahoo vient d'annoncer le support d'une nouvelle valeur pour la balise meta robots : "noydir" sert désormais à préciser qu'on ne veut pas que Yahoo utilise (dans les pages de résultats de son moteur de recherche) le titre du site tel qu'il est référencé dans l'annuaire de Yahoo. Explications...
L'équipe de MSN Search (oh pardon Live Search) fait un petit récapitulatif des différentes versions de leur crawler, MSNBot.
Google a mis en place un système appelé : voici quelques explications...
Maintenant que les moteurs se sont accordés pour un protocole commun de fichier SiteMap, ils simplifient la soumission de fichier sitemap en proposant d'utiliser le fichier robots.txt (qui est pourtant historiquement utilisé pour indiquer les parties que l'on ne souhaite pas indexer...).
Le robot chargé de crawler le web pour l'indexation dans le moteur de recherche Yahoo était encore rattaché à Inktomi, racheté pourtant par Yahoo il y a plusieurs années. Son nom d'hôte sera désormais crawl.yahoo.net
Si vous gérez plusieurs sites, vous avez peut-être rencontré le cas où ça aurait été plus simple pour vous de centraliser au même endroit (sur un même site) tous les sitemaps de ces différents sites. C'était possible depuis octobre 2007 mais un peu compliqué, aujourd'hui c'est facilité par le biais du fichier robots.txt : explications...
Depuis des lustres on parle d'optimisation des balises meta pour le référencement, pourtant elles n'ont que peu d'influence. Cet article a pour objectif de vous aider à savoir lesquelles utiliser.
Matt Cutts fait le point sur les différentes adresses IP utilisées par Googlebot et les autres produits ou services de Google.
Alexa, qui proposait déjà un moteur de recherche classique, vient de sortir un moteur de recherche d'images.