Qu’est-ce que le fichier robots.txt et comment s’en servir ?

Si vous ĂŞtes sur le point de crĂ©er un site web, vous avez probablement connaissance des fichiers Ă  intĂ©grer Ă  la racine du serveur pour assurer son bon fonctionnement. Parmi ces fichiers, le robots.txt a pour rĂ´le d’interdire le rĂ©fĂ©rencement de certaines pages web ou, au contraire, optimiser le rĂ©fĂ©rencement d’autres pages en invitant les robots des moteurs de recherche Ă  les visiter.

Le fichier robots.txt ne respecte pas un langage client ou encore serveur, mais est uniquement composĂ© d’un cumul de commandes dans un fichier texte placĂ© Ă  la racine du site, notamment avec « User-agent : », « Allow: » et « Disallow: », pour indiquer Ă  chaque robot les pages de votre site Ă  indexer ou non. On peut accĂ©der au fichier via l’URL suivante : https://mon-site-web.fr/robots.txt

1 – Ouvrir un bloc-notes pour rĂ©diger votre robots.txt

La plupart des CMS (Systèmes de gestion de contenus) disposent d’une fonctionnalitĂ© qui vous permet de crĂ©er directement votre fichier robots.txt. Mais il est Ă©galement très facile de commencer Ă  rĂ©diger votre fichier directement Ă  partir d’un fichier texte ou d’un bloc-notes.

Que vous souhaitiez accĂ©der Ă  un fichier robots.txt existant ou en crĂ©er un nouveau, vous aurez besoin d’un accès FTP pour vous rendre Ă  la racine du site. Si vous ne possĂ©dez pas les accès, vous devrez prendre contact avec votre hĂ©bergeur ou avec le prestataire en charge de la gestion de votre site internet.

Pour commencer Ă  organiser votre fichier, nommez-le « robots.txt » et veillez Ă  respecter une structure stricte, c’est-Ă -dire Ă  formuler une instruction par ligne de code. Aucune ligne de votre fichier ne doit ĂŞtre laissĂ©e vide.

2 – Indiquer Ă  quel robot vous vous adressez avec la fonction User-agent

Le terme « user-agents » désigne les robots des moteurs de recherche, comme Google Bot par exemple. Ce sont des algorithmes chargés de scruter les pages des sites web pour évaluer leur pertinence vis-à-vis des critères de référencement naturel. Pour être bien positionné, un site web doit donc être crawlé régulièrement par ces robots.

La commande User-agent sert Ă  indiquer en dĂ©but de fichier Ă  quel robot vous vous adressez. Dans la majoritĂ© des cas, il est conseillĂ© de vous adresser Ă  tous les robots, chaque moteur de recherche disposant de son propre algorithme. Pour cela, l’instruction est : « User-agent: * ».

3 – DĂ©signer les pages Ă  ne pas indexer avec la fonction « Disallow »

L’instruction « Disallow » est la plus courante. Elle permet d’indiquer aux robots des moteurs de recherche les pages que vous ne voulez pas voir indexĂ©es. Il est aussi possible de bloquer l’indexation d’un fichier ou d’un dossier.

C’est une fonction utile pour le SEO, mais aussi dans le cadre de votre stratĂ©gie de communication. En effet, il existe probablement des pages, des images ou des documents que vous souhaitez mettre Ă  la disposition de vos utilisateurs, sans qu’ils n’apparaissent dans les listes de rĂ©sultats des moteurs de recherche.

Pour bloquer l’indexation d’une page, utilisez la commande suivante : « Disallow: /url-relative-de-la-page ». Derrière les deux points, ajoutez uniquement l’extension de votre URL en commençant par « / ». Si vous bloquez un dossier, indiquez le nom du dossier en l’intĂ©grant entre deux « / ». Par exemple, pour interdire l’accès Ă  votre dossier intranet, rĂ©digez la commande suivante : « Disallow: /intranet/ ».

4 – Guider le robot vers le fichier sitemap du site web

Intégrer une commande « sitemap » dans votre fichier robots.txt est préférable. Cela permet de guider les robots des moteurs de recherche vers le fichier XML sitemap, lui-même chargé de guider les robots vers les pages que vous souhaitez voir indexées en priorité. La commande est la suivante : « Sitemap: https://www.monsite.fr/sitemap ». Assurez-vous toutefois avant cela que votre plan de site est à jour (sans page 404 notamment).

5 – Tester votre fichier robots.txt

Pour vĂ©rifier que votre fichier robots.txt bloque correctement l’indexation des URL et des fichiers, vous pouvez vous aider des outils webmasters de Google. Il vous suffit d’authentifier votre site dans l’outil, puis de vous rendre sur « Outil de test du fichier robots.txt ». Celui-ci vous indique les erreurs Ă©ventuelles contenues dans votre fichier.

Google Search Console vous indique si vous avez bloquĂ© des URL qu’il juge importantes pour le rĂ©fĂ©rencement naturel de votre site. Vous pouvez Ă©galement modifier votre fichier directement depuis l’outil.

Pour aller plus loin, téléchargez ce guide gratuit et découvrez comment définir une stratégie de SEO technique efficace pour optimiser les performances de votre site.Guide : Comment réaliser un audit du SEO technique


Lire l’article sur le site Source

Ajouter un commentaire

Les champs requis sont indiqués *