Clause de non-responsabilité: Cet article a été généré par traduction automatique.

Robots.txt

Prev Next

Plans prenant en charge cette fonctionnalité : Professional Business Enterprise

Qu’est-ce qu’un fichier Robots.txt ?

Un fichier Robots.txt est un fichier texte utilisé pour communiquer avec les robots d’indexation et autres agents automatisés sur les pages de votre base de connaissances qui ne doivent pas être indexées. Il contient des règles spécifiant quelles pages peuvent être consultées par quels robots d’exploration.

Pour plus d’informations, consultez cet help article de Google.


Accéder à Robots.txt dans Document360

  1. Accédez à Paramètres () dans la barre de navigation de gauche de la .

  2. Dans le volet de navigation de gauche, accédez au site de la base de connaissances > Paramètres de l’article et > onglet SEO SEO.

  3. Localisez-Robots.txt et cliquez sur Modifier.

    Le panneau des paramètres Robots.txt apparaîtra.

  4. Saisissez les règles de votre choix.

  5. Cliquez sur Mettre à jour.

Screenshot of robot txt page


Cas d’utilisation de Robots.txt

Un fichier Robots.txt peut bloquer l’exploration d’un dossier, d’un fichier (tel qu’un fichier PDF) ou d’une extension de fichier spécifique.

Vous pouvez également retarder la vitesse d’exploration des bots en ajoutant crawl-delay dans votre fichier Robots.txt. Ceci est utile lorsque votre site connaît un trafic élevé.

User-agent: *
Crawl-delay: 10

Restriction du robot d’exploration via les données d’administration

User-agent: *
Disallow: /admin/
Sitemap: https://example.com/sitemap.xml

User-agent: * - Spécifie que n’importe quel bot peut parcourir le site.
Disallow: /admin/: - Empêche le robot d’exploration d’accéder aux données d’administration.
Sitemap: https://example.com/sitemap.xml - Permet d’accéder à des bots pour explorer le sitemap. Cela facilite l’exploration car le sitemap contient toutes les URL du site.


Restreindre l’exploration d’un moteur de recherche spécifique

User-agent: Bingbot 
Disallow: /

Le fichier Robots.txt ci-dessus est défini pour interdire le Bingbot.

User-agent: Bingbot - Spécifie le robot d’exploration à partir du moteur de recherche Bing.
Disallow: / - Empêche Bingbot d’explorer le site.


Bonnes pratiques

  • Incluez des liens vers les pages les plus importantes.

  • Bloquez les liens vers des pages qui n’apportent aucune valeur.

  • Ajoutez l’emplacement du sitemap dans le fichier Robots.txt .

  • Un fichier Robots.txt ne peut pas être ajouté deux fois. Pour plus d’informations, consultez les consignes de base de la documentation de Google Search Central .

NOTE

Un robot d’indexation, également connu sous le nom de Spider ou Spiderbot, est un programme ou un script qui navigue automatiquement sur le Web et collecte des informations sur divers sites Web. Les moteurs de recherche tels que Google, Bing et Yandex utilisent des robots d’exploration pour reproduire les informations d’un site sur leurs serveurs.

Les robots d’exploration ouvrent de nouveaux onglets et font défiler le contenu d’un site Web, tout comme un utilisateur consultant une page Web. De plus, les robots d’exploration collectent des données ou des métadonnées à partir du site Web et d’autres entités (telles que des liens sur une page, des liens brisés, des sitemaps et du code HTML) et les envoient aux serveurs de leur moteur de recherche respectif. Les moteurs de recherche utilisent ces informations enregistrées pour indexer efficacement les résultats de recherche.


Foire aux questions

Comment puis-je supprimer mon projet Document360 de l’index de recherche Google ?

Pour exclure l’ensemble du projet de l’index de recherche Google :

  1. Accédez à Paramètres () dans la barre de navigation de gauche de l' .

  2. Dans le volet de navigation de gauche, accédez à la base de connaissances > Paramètres de l’article et > onglet SEO Référencement .

  3. Allez dans l’onglet SEO et cliquez sur Modifier dans le Robots.txt.

  4. Collez le code suivant :

User-Agent: Googlebot 
Disallow: 
  1. Cliquez sur Mettre à jour.

Comment empêcher l’indexation des pages de balises par les moteurs de recherche ?

Pour exclure les pages de balises des moteurs de recherche :

  1. Accédez à Paramètres () dans la barre de navigation de gauche de l' .

  2. Dans le volet de navigation de gauche, accédez au site de la base de connaissances > Paramètres de l’article et > onglet SEO SEO .

  3. Allez dans l’onglet SEO et cliquez sur Modifier dans le Robots.txt.

  4. Collez le code suivant :

User-agent: *
Disallow: /docs/en/tags/
  1. Cliquez sur Mettre à jour.