23 octobre 2020 | 13 min de lecture

Un fichier robots.txt est un document texte situé dans le répertoire racine d'un site qui contient des informations destinées aux robots des moteurs de recherche sur les URL (qui contiennent des pages, des fichiers, des dossiers, etc.) qui doivent être explorées et celles qui ne le sont pas . La présence de ce fichier n'est pas obligatoire pour le fonctionnement du site, mais en même temps, sa configuration correcte est au cœur du référencement.

La décision d'utiliser le fichier robots.txt a été adoptée en 1994 dans le cadre de la norme d'exclusion des robots. Selon le centre d'aide Google, le but principal du fichier n'est pas d'empêcher l'affichage des pages Web dans les résultats de recherche, mais de limiter le nombre de requêtes effectuées par des robots vers des sites et de réduire la charge du serveur.

De manière générale, le contenu du fichier robots.txt doit être considéré comme une recommandation pour les robots de recherche qui définit les règles pour l'exploration de sites Web. Pour accéder au contenu du fichier robots.txt de n'importe quel site, il vous suffit de taper "/robots.txt" après le nom de domaine dans le navigateur.

À quoi sert le fichier robots.txt?

La fonction principale du document est d'empêcher la numérisation des pages et des fichiers de ressources afin que le budget d'exploration soit alloué plus efficacement. Dans la grande majorité des cas, le fichier robots.txt cache des informations qui ne fournissent aucune valeur aux visiteurs du site Web et n'affectent pas les classements SERP.

Remarque: Le budget d'exploration est le nombre de pages Web qu'un robot de recherche peut explorer. Pour l'utiliser de manière plus frugale, les robots de recherche ne doivent être dirigés que vers le contenu le plus important des sites Web et ne peuvent pas accéder aux informations inutiles.

Quelles pages et quels fichiers sont généralement fermés via robots.txt

1. Pages contenant des données personnelles.

Les données personnelles peuvent inclure les noms et numéros de téléphone que les visiteurs indiquent lors de l'inscription, les tableaux de bord personnels et les pages de profil, les numéros de carte de paiement. Pour des raisons de sécurité, l'accès à ces informations doit en outre être protégé par un mot de passe.

2. Pages auxiliaires qui n'apparaissent qu'après certaines actions de l'utilisateur.

Ces actions incluent généralement les messages que les clients reçoivent après avoir terminé une commande, les formulaires client, les pages d'autorisation ou de récupération de mot de passe.

3. Tableau de bord d'administration et fichiers système.

Fichiers internes et de service avec lesquels les administrateurs de sites Web ou les webmasters interagissent.

4. Pages de recherche et de tri par catégorie.

Les pages qui s'affichent après qu'un visiteur du site Web a saisi une requête dans le champ de recherche du site sont généralement fermées aux robots des moteurs de recherche. Il en va de même pour les résultats que les utilisateurs obtiennent lors du tri des produits par prix, classement et autres critères. Les sites d'agrégation peuvent être une exception.

5. Filtrer les pages.

Les résultats affichés avec un filtre appliqué (taille, couleur, fabricant, etc.) sont des pages séparées et peuvent être considérés comme du contenu dupliqué. En règle générale, les experts en référencement les empêchent également d'être explorés, sauf dans les cas où ils génèrent du trafic pour les mots-clés de la marque ou d'autres requêtes cibles.

6. Fichiers d'un certain format.

Ces fichiers peuvent inclure des photos, des vidéos, des documents .PDF, des fichiers JS. Avec l'aide de robots.txt, vous pouvez restreindre l'analyse des fichiers individuels ou spécifiques à une extension.

Comment créer un fichier robots.txt et où le mettre?

Outils de configuration du fichier robots.txt

Comme le document a une extension .txt, tout éditeur de texte prenant en charge le codage UTF-8 conviendra. L'option la plus simple est Notepad (Windows) ou TextEdit (Mac).

Vous pouvez également utiliser un outil générateur robots.txt qui générera un fichier robots.txt basé sur les informations spécifiées.

Outil de génération de texte de robots

Titre et taille du document

Le nom du fichier robots.txt doit ressembler exactement à ceci, sans utiliser de majuscules. Selon les directives de Google, la taille de document autorisée est de 500 Ko. Le dépassement de cette limite peut conduire le robot de recherche à traiter partiellement le document, à ne pas explorer du tout le site Web ou, à l'inverse, à scanner le contenu d'un site Web dans son intégralité.

Où placer le fichier

Le document doit se trouver dans le répertoire racine de l'hébergeur du site Web et être accessible via FTP. Avant d'apporter des modifications, il est recommandé de télécharger le fichier robots.txt dans sa forme d'origine.

Syntaxe et directives du fichier robots.txt

Examinons maintenant de plus près la syntaxe d'un fichier robots.txt qui se compose de directives (règles), de paramètres (pages, fichiers, répertoires) et de caractères spéciaux, ainsi que des fonctions qu'ils exécutent.

Exigences générales relatives au contenu des fichiers

1. Chaque directive doit commencer sur une nouvelle ligne et être formée selon le principe: une ligne = une directive + un paramètre.

Faux Agent utilisateur: * Disallow: / folder-1 / Disallow: / folder-2 /
Correct Agent utilisateur: *

Interdire: / dossier-1 /

Interdire: / dossier-2 /

2. Les noms de fichiers qui utilisent des alphabets autres que le latin doivent être convertis à l'aide du convertisseur Punycode.

Faux Agent utilisateur: interdire: / φάκελος-με-επαφές /
Correct Disallow: / xn —– v8bgtvbb4blm8as0bi7an /

3. Dans la syntaxe des paramètres, vous devez respecter le registre approprié. Si un nom de dossier commence par une majuscule, le nommer par une petite lettre désorientera le robot. Et vice versa.

Faux Agent utilisateur: interdire: / dossier /
Correct Interdire: / Dossier /

4. L'utilisation d'un espace au début d'une ligne, de guillemets ou de points-virgules pour les directives est strictement interdite.

Faux Agent utilisateur: interdire: / dossier-1 /;

Interdire: / "dossier-2" /

Correct Interdire: / dossier-1 /

Interdire: / dossier-2 /

5. Un fichier robots.txt vide ou inaccessible peut être perçu par les moteurs de recherche comme une autorisation d'explorer l'ensemble du site. Pour être traité avec succès, le fichier robots.txt doit renvoyer le code d'état de réponse HTTP 200 OK.

Code d'état du fichier robots.txt

symboles de fichier robots.txt

Décortiquons les principaux symboles contenus dans le fichier et découvrons leur signification.

le barre oblique (/) est ajouté après la commande, avant le nom du fichier ou du répertoire (dossier, section). Si vous souhaitez fermer tout le répertoire, vous devez mettre un autre «/» après son nom.

Interdire: / recherche /

Interdire: /standarts.pdf

le astérisque (*) indique que le fichier robots.txt s'applique à tous les robots des moteurs de recherche qui visitent le site.

User-agent: * signifie que les règles et conditions s'appliquent à tous les robots.

Interdire: / * videos / signifie que tous les liens de sites Web contenant / videos / ne seront pas explorés.

le signe dollar ($) est une restriction de type astérisque qui s'applique aux adresses URL du site. Par exemple, le contenu d'un site ou d'un fichier individuel est inaccessible, mais des liens contenant le nom spécifié sont disponibles.

Interdire: / * dossier-1 / $

le hachage (#) marque tout texte qui suit comme commentaire et signifie qu'il ne sera pas pris en compte par les robots de recherche.

#search robots ne verront pas ces informations.

Directives de fichier robots.txt

Différences de directives pour différents moteurs de recherche

Jetons un coup d'œil aux différentes commandes que vous pouvez utiliser pour accéder à Google, Bing, Yahoo! et les robots Yandex. Vous ne savez jamais quand cela vous sera utile.

DIRECTIF GOOGLE BING YAHOO! YANDEX
Agent utilisateur + + + +
Refuser + + + +
Autoriser + + + +
Plan du site + + + +
Délai d'exploration + + +
Clean-param +

Comme vous pouvez le voir, les principales directives du fichier robots.txt pour accéder à Google, Bing, Yahoo! et les robots Yandex correspondent, à l'exception du délai de crawl et du paramètre de nettoyage (reconnu uniquement par Yandex).

L'agent utilisateur est une directive obligatoire qui définit le robot de recherche auquel s'appliquent les règles définies. S'il y a plusieurs bots, chaque groupe de règles commence par cette commande.

Exemple

User-agent: * signifie que les instructions s'appliquent à tous les robots existants.

User-agent: Googlebot signifie que le fichier est destiné au robot Google.

User-agent: Bing signifie que le fichier est destiné au robot Bing.

Agent utilisateur: Yahoo! signifie que le fichier est destiné à Yahoo! robot.

Disallow est une commande clé qui demande aux robots des moteurs de recherche de ne pas analyser une page, un fichier ou un dossier. Les noms des fichiers et dossiers auxquels vous souhaitez restreindre l'accès sont indiqués après le symbole «/».

Exemple 1. Spécification de différents paramètres après Disallow.

refuser: / lien vers la page interdit l'accès à une URL spécifique.

refuser: /nom de dossier/ ferme l'accès au dossier.

refuser: /image/ ferme l'accès à l'image.

refuser: /. L'absence de toute instruction après le symbole «/» indique que le site est complètement fermé à la numérisation, ce qui peut s'avérer utile lors du développement du site Web.

Exemple 2. Désactivation de l'analyse de tous les fichiers .PDF sur le site.

Agent utilisateur: Googlebot

Interdire: /*.pdf

Dans le fichier robots.txt, Allow exécute la fonction opposée de Disallow, en accordant l'accès au contenu du site Web. Les deux commandes sont généralement utilisées conjointement, par exemple, lorsque vous devez ouvrir l'accès à une certaine information comme une photo dans un répertoire de fichiers multimédia caché.

Exemple. Utiliser Autoriser pour numériser une image dans un album fermé.

Spécifiez le répertoire Autoriser, l'URL de l'image et dans une autre ligne Disallow avec le nom du dossier où se trouve le fichier.

Autoriser: /album/picture1.jpg

Interdire: / album /

La commande sitemap du fichier robots.txt indique le chemin d'accès au plan du site. La directive peut être omise si le plan du site a un nom standard, se trouve dans le répertoire racine et est accessible via le lien «nom du site» /sitemap.xml, similaire au fichier robots.txt.

Exemple

Plan du site: https://website.com/sitemap2020.xml

Pour éviter de surcharger le serveur, vous pouvez indiquer aux robots de recherche le nombre de secondes recommandé pour traiter une page. Cependant, de nos jours, les moteurs de recherche explorent les pages avec un délai de 1 ou 2 secondes. Il convient de souligner que cette directive n'est plus pertinente pour Google.

Exemple

Agent utilisateur: Bing

Délai d'exploration: 2

Quand faut-il utiliser la balise meta robots

Si vous souhaitez masquer le contenu du site des résultats de recherche, l'utilisation du fichier robots.txt ne suffira pas. Les robots ont pour instruction de ne pas indexer les pages à l'aide de la balise meta robots qui est ajoutée au en-tête du code HTML d'une page. La directive noindex indique que le contenu de la page ne peut pas être indexé. Une autre façon de limiter l’indexation des pages consiste à spécifier son URL dans le X-Robots-Tag du fichier de configuration du site.

Exemple de fermeture au niveau de la page



Quels types de robots d'exploration existe-t-il?

Un robot d'exploration est un type spécial de programme qui analyse les pages Web et les ajoute à la base de données d'un moteur de recherche. Google a plusieurs robots responsables de différents types de contenu.

  • Googlebot: explore les sites Web pour les ordinateurs de bureau et les appareils mobiles
  • Image Googlebot: affiche les images du site dans la section "Images"
  • Googlebot Video: scanne et affiche des vidéos
  • Googlebot News: sélectionne les articles les plus utiles et de haute qualité pour la section "Actualités"
  • Adsense: classe un site en tant que plate-forme publicitaire en termes de pertinence publicitaire

La liste complète des robots Google (agents utilisateurs) est répertoriée dans la documentation d'aide officielle.

Les robots suivants sont pertinents pour d'autres moteurs de recherche: Bingbot pour Bing, Slurp pour Yahoo !, Baiduspider pour Baidu, et la liste ne s'arrête pas là. Il existe plus de 300 robots de moteur de recherche différents.

En plus des robots de recherche, le site peut être exploré par des robots d'exploration de ressources analytiques, comme Ahrefs ou Screaming Frog. Le travail de leurs solutions logicielles est basé sur le même principe que les moteurs de recherche: analyser les URL pour les ajouter à leur propre base de données.

Bots qui devraient être empêchés d'accéder aux sites:

  • Analyseurs malveillants (spambots qui collectent les adresses e-mail des clients, les virus, les attaques DoS et DDoS, et autres);
  • Bots d'autres entreprises qui surveillent les informations pour une utilisation ultérieure à leurs propres fins (prix, contenu, méthodes de référencement, etc.).

Si vous décidez de fermer le site des robots mentionnés ci-dessus, il est préférable d'utiliser le fichier .htaccess au lieu du fichier robots.txt. La deuxième méthode est plus sûre, car elle restreint l'accès non pas à titre de recommandation, mais au niveau du serveur.

SetEnvIfNoCase User-Agent "bot name-1" search_bot

SetEnvIfNoCase User-Agent "bot name-2" search_bot

La commande doit être spécifiée au bas du fichier .htaccess. Les restrictions de numérisation pour chaque robot doivent être spécifiées sur une ligne distincte.

Exemple de contenu robots.txt

Un modèle de fichier avec des directives à jour vous aidera à créer correctement le fichier robots.txt, en indiquant les robots requis et en restreignant l'accès aux fichiers du site concernés.

User-agent: (nom du bot)

Interdire: / (chemin d'accès au fichier ou au dossier) /

Interdire: / (chemin d'accès au fichier ou au dossier) /

Interdire: / (chemin d'accès au fichier ou au dossier) /

Plan du site: (URL du plan du site)

Voyons maintenant plusieurs exemples de ce à quoi ressemble le fichier robots.txt sur différents sites Web.

Voici une version minimaliste:

WizzAir robots.txt

Dans l'exemple suivant, nous voyons une liste de répertoires de sites Web, qui sont fermés pour l'analyse. Pour certains robots, des groupes distincts ont été créés qui interdisent généralement l'exploration du site Web (Adsbot-Google, Mediapartners-Google):

Walmart robots.txt

Comment vérifier votre fichier robots.txt

Parfois, des erreurs dans le fichier robots.txt peuvent conduire non seulement à l'exclusion de pages importantes de l'index, mais aussi à ce que l'ensemble du site devienne pratiquement invisible pour les moteurs de recherche.

L'option de vérification du fichier robots.txt est manquante dans la nouvelle interface de Google Search Console. Vous pouvez désormais vérifier l'indexation des pages individuellement (Vérifier URL) ou envoyer des demandes de suppression d'URL (Index – Suppressions). L'outil Robots.txt Tester est accessible directement.

Testeur robots.txt

Sinon, comment le fichier robots.txt peut-il être utilisé?

Le contenu du fichier robots.txt peut inclure plus qu'une simple liste de directives pour les moteurs de recherche. Le fichier étant accessible au public, certaines entreprises sont créatives et humoristiques dans leur création. Parfois, vous pouvez trouver une image, un logo de marque et même une offre d'emploi. Un fichier robots.txt personnalisé est implémenté à l'aide de # commentaires et autres symboles.

Voici ce que vous trouverez dans le fichier robots.txt de Nike:

Nike robots.txt

Les utilisateurs intéressés par le fichier robots.txt d'un site Web sont probablement bons pour l'optimisation. Par conséquent, le document peut être un moyen supplémentaire de trouver des spécialistes du référencement.

Et voici ce que vous trouverez sur TripAdvisor:

TripAdvisor robots.txt

Et voici un petit doodle qui a été ajouté au site Web de la place de marché Esty:

Doodle Etsy robots.txt

Conclusions

Pour récapituler, voici quelques points importants à retenir de ce billet de blog qui vous aideront à consolider vos connaissances sur les fichiers robots.txt:

  • Le fichier robots.txt est un guide pour les robots qui leur indique quelles pages doivent et ne doivent pas être explorées.
  • Le fichier robots.txt ne peut pas être configuré pour empêcher l'indexation, mais vous pouvez augmenter les chances qu'un robot explore ou ignore certains documents ou fichiers.
  • Le masquage du contenu de site Web inutile avec la directive d'interdiction permet d'économiser le budget d'exploration. Cela est vrai pour les sites Web multi-pages et les petits sites Web.
  • Un simple éditeur de texte suffit pour créer un fichier robots.txt, et Google Search Console suffit pour exécuter une vérification.
  • Le nom du fichier robots.txt doit être en minuscules et ne pas dépasser 500 Ko.

N'hésitez pas à nous contacter via la section commentaires si vous avez des questions ou des commentaires!

Vues du message: 38

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *