Fichier robots.txt, comment s'en servir ? Quelles bonnes pratiques ?

Un fichier robots.txt contient des directives adressées aux moteurs de recherche. Vous pouvez l’utiliser pour :

  • empêcher les moteurs de recherche d’explorer des parties spécifiques de votre site Web 
  • donner aux moteurs de recherche des conseils utiles sur la meilleure façon d’explorer votre site Web. 

Le robots.txt joue un rôle important dans le référencement.

Ce billet fait partie d’une série d’articles où DigiDux, agence référencement naturel, aborde les fondamentaux du référencement naturel. Vous y trouverez :

Qu’est-ce qu’un fichier robots.txt ?

Un fichier robots.txt indique aux moteurs de recherche quelles sont les règles de fonctionnement de votre site Web. Une grande partie du travail de référencement consiste à envoyer les bons signaux aux moteurs de recherche, et le fichier robots.txt est l’un des moyens de communiquer vos préférences d’exploration aux moteurs de recherche.

En 2019, il y a eu quelques nouveautés autour de la standardisation des robots.txt : Google a proposé une extension du protocole d’exclusion des robots et a mis en libre accès son analyseur robots.txt.

  • L’interpréteur robots.txt de Google est assez flexible et étonnamment indulgent.
  • En cas de confusion entre les directives, Google privilégie la sécurité et part du principe que les sections doivent être restreintes plutôt que non restreintes.

Les moteurs de recherche vérifient régulièrement le fichier robots.txt d’un site Web pour voir s’il contient des instructions pour l’exploration du site. Ces instructions sont appelées des “directives”.

S’il n’y a pas de fichier robots.txt ou s’il n’y a pas de directives applicables, les moteurs de recherche exploreront l’ensemble du site Web.

Bien que tous les principaux moteurs de recherche respectent le fichier robots.txt, les moteurs de recherche peuvent néanmoins choisir d’ignorer (certaines parties de) votre fichier robots.txt. 

Si les directives du fichier robots.txt constituent un signal fort pour les moteurs de recherche, il est important de se rappeler que le fichier robots.txt est un ensemble de directives facultatives destinées aux moteurs de recherche et non un ordre.

Pour savoir si Google a bien pris en compte votre fichier robots.txt, il faut simplement se connecter à votre compte Google Search Console.

Ressources complémentaires:

Pourquoi s’intéresser au fichier robots.txt ?

Le fichier robots.txt joue un rôle essentiel du point de vue SEO. Il indique aux moteurs de recherche la meilleure façon d’explorer votre site Web.

À l’aide du fichier robots.txt, vous pouvez :

  • empêcher les moteurs de recherche d’accéder à certaines parties de votre site Web, 
  • éviter le contenu dupliqué 
  • et donner aux moteurs de recherche des conseils utiles sur la façon dont ils peuvent explorer votre site Web plus efficacement.

Soyez toutefois prudent lorsque vous apportez des modifications à votre fichier robots.txt : ce fichier peut rendre de grandes parties de votre site Web inaccessibles aux moteurs de recherche.

À quoi ressemble un fichier robots.txt ?

Un exemple de ce à quoi peut ressembler un simple fichier robots.txt pour un site Web WordPress :

User Agent : *

Disallow : /wp-admin/

Voici une mini explication de l’anatomie d’un fichier robots.txt wordpress à partir de l’exemple ci-dessus :

  • User-agent : le user-agent indique pour quels moteurs de recherche les directives qui suivent sont destinées.
  • * : ceci indique que les directives sont destinées à tous les moteurs de recherche.
  • Disallow : il s’agit d’une directive indiquant quel contenu n’est pas accessible à l’agent utilisateur.
  • /wp-admin/ : c’est le chemin qui est inaccessible pour l’agent utilisateur.

En résumé : ce fichier robots.txt indique à tous les moteurs de recherche de ne pas accéder au répertoire /wp-admin/.

Les composants d’un fichier robots.txt

User-agent dans robots.txt

Chaque moteur de recherche doit s’identifier par un user-agent. Les robots de Google s’identifient par exemple sous le nom de Googlebot, ceux de Yahoo sous le nom de Slurp et ceux de Bing sous le nom de BingBot, etc.

L’enregistrement du user-agent définit le début d’un groupe de directives. Toutes les directives comprises entre le premier user-agent et l’enregistrement user-agent suivant sont traitées comme des directives pour le premier user-agent.

Les directives peuvent s’appliquer à des user-agents spécifiques, mais elles peuvent aussi s’appliquer à tous les user-agents. Dans ce cas, un joker est utilisé : User-agent : *.

La directive Disallow dans le fichier robots.txt

Vous pouvez indiquer aux moteurs de recherche de ne pas accéder à certains fichiers, pages ou sections de votre site Web. Pour ce faire, utilisez la directive Disallow. La directive Disallow est suivie du chemin d’accès qui ne doit pas être consulté. Si aucun chemin n’est défini, la directive est ignorée.

Exemple

User-agent : *

Disallow : /wp-admin/

Dans cet exemple, on indique à tous les moteurs de recherche de ne pas accéder au répertoire /wp-admin/.

La directive Allow dans le fichier robots.txt

La directive Allow est utilisée pour contrecarrer une directive Disallow. La directive Allow est prise en charge par Google et Bing. 

En utilisant les directives Allow et Disallow ensemble, vous pouvez indiquer aux moteurs de recherche qu’ils peuvent accéder à un fichier ou à une page spécifique dans un répertoire qui est autrement interdit. 

La directive Allow est suivie du chemin d’accès. Si aucun chemin n’est défini, la directive est ignorée.

Exemple

User-agent : *

Allow : /media/termes-et-conditions.pdf

Disallow : /media/

Dans l’exemple ci-dessus, tous les moteurs de recherche ne sont pas autorisés à accéder au répertoire /media/, sauf pour le fichier /media/termes-et-conditions.pdf.

Quand utiliser un fichier robots.txt ?

On recommande toujours d’utiliser un fichier robots.txt. Il n’y a absolument aucun mal à en avoir un, et c’est l’endroit idéal pour donner aux moteurs de recherche des directives sur la façon dont ils peuvent explorer au mieux votre site Web.

Meilleures pratiques de robots.txt

Lorsque vous mettez en œuvre le fichier robots.txt, gardez à l’esprit les meilleures pratiques suivantes :

  • Soyez prudent lorsque vous apportez des modifications à votre fichier robots.txt : ce fichier peut potentiellement rendre de grandes parties de votre site Web inaccessibles aux moteurs de recherche.
  • Le fichier robots.txt doit se trouver à la racine de votre site Web (par exemple, https://www.exemple.fr/robots.txt).
  • Le fichier robots.txt n’est valable que pour le domaine complet sur lequel il se trouve, y compris le protocole (http ou https).
  • Les différents moteurs de recherche interprètent les directives différemment. Par défaut, la première directive correspondante l’emporte toujours. Mais, avec Google et Bing, la spécificité l’emporte.
  • Évitez autant que possible d’utiliser la directive crawl-delay pour les moteurs de recherche.

Emplacement et nomination du fichier robots.txt

Le fichier robots.txt doit toujours être placé à la racine d’un site Web (dans le répertoire de premier niveau de l’hôte) et porter le nom de fichier robots.txt, par exemple : https://www.exemple.fr/robots.txt.

Notez que l’URL du fichier robots.txt est, comme toute autre URL, sensible à la casse.

Si le fichier robots.txt est introuvable à l’emplacement par défaut, les moteurs de recherche supposeront qu’il n’y a pas de directives et ramperont sur votre site Web.

Ordre de priorité

Il est important de noter que les moteurs de recherche traitent les fichiers robots.txt différemment. Par défaut, la première directive correspondante l’emporte toujours.

Cependant, avec Google et Bing, la spécificité l’emporte. Par exemple : une directive Allow l’emporte sur une directive Disallow si sa longueur de caractères est plus longue.

Exemple

User-agent : *

Allow : /apropos/entreprise/

Disallow : /apropos/

Dans l’exemple ci-dessus, tous les moteurs de recherche, y compris Google et Bing, ne sont pas autorisés à accéder au répertoire /apropos/, à l’exception du sous-répertoire /apropos/entreprise/.

Un seul groupe de directives par robot

Vous ne pouvez définir qu’un seul groupe de directives par moteur de recherche. Le fait d’avoir plusieurs groupes de directives pour un même moteur de recherche les rend confus.

Soyez aussi précis que possible

La directive Disallow se déclenche également sur les correspondances partielles. Soyez aussi précis que possible lorsque vous définissez la directive Disallow afin d’éviter d’interdire involontairement l’accès à des fichiers.

Surveillez votre fichier robots.txt

Il est important de surveiller l’évolution de votre fichier robots.txt. On voit beaucoup de cas où des directives incorrectes et des modifications soudaines du fichier robots.txt causent des problèmes de référencement majeurs.

Pour aller plus loin

Gagner la course digitale implique nécessairement la conjugaison d’une bonne visibilité sur les moteurs de recherche, la transformation optimum de visiteurs en clients, en gardant toujours à l’esprit la rentabilité de vos investissements.

Vous avez besoin de services pour développer ou gérer votre stratégie SEO ou vos campagnes SEA, voici comment chez DigiDux, agence marketing digital, nous pouvons vous aider :

  • Référencement naturel et SEA: Nous positionnons votre site durablement sur les moteurs de recherches pour attirer un flux constant de prospects qualifiés et de clients.
  • Génération de leads : Nous vous aidons à combiner l’analyse des données aux tactiques les plus efficaces pour augmenter la conversion de vos visiteurs en clients.
  • Marketing digital performant : Nous vous permettons d’industrialiser et d’automatiser vos scénarios de ventes pour accélérer le cycle d’achat, augmenter votre chiffre d’affaires et votre ROI.

Contactez-nous pour transformer votre site web en une machine à générer des clients. 

L’un de nos experts en marketing de croissance, prendra contact avec vous pour comprendre vos besoins et vous proposer les stratégies marketing digital adaptées à votre entreprise.