Disclaimer: Dit artikel is gegenereerd door automatische vertaling.

Robots.txt

Prev Next

Abonnementen die deze functie ondersteunen: Professional Business Enterprise

Wat is een Robots.txt-dossier?

Een Robots.txt-bestand is een tekstbestand dat wordt gebruikt om te communiceren met webcrawlers en andere geautomatiseerde agenten over welke pagina's van je kennisbank niet geïndexeerd mogen worden. Het bevat regels die specificeren welke pagina's door welke crawlers toegankelijk mogen zijn.

OPMERKING

Voor meer informatie, lees dit helpartikel van Google.


Toegang tot Robots.txt in Document360

Om Robots.txt te raadplegen in Document360:

  1. Ga naar Instellingen () in de linker navigatiebalk

  2. Ga naar de Knowledge Base-site > Artikelinstellingen & SEO > SEO-tabblad .

  3. Zoek Robots.txt en klik op Bewerken.

    Het Robots.txt instellingenpaneel verschijnt.

  4. Typ de gewenste regels in.

  5. Klik op Update.

Settings page showing SEO options and robots.txt configuration for a knowledge base.


Gebruiksgevallen van Robots.txt

Een Robots.txt bestand kan een map, bestand (zoals een PDF) of specifieke bestandsextensies blokkeren zodat ze niet worden gecrawld.

Je kunt ook de crawlsnelheid van bots vertragen door crawl-delay toe te voegen aan je Robots.txt bestand. Dit is handig wanneer je site veel verkeer heeft.

User-agent: *
Crawl-delay: 10

De crawler beperken via beheerdersdata

User-agent: *
Disallow: /admin/
Sitemap: https://example.com/sitemap.xml

User-agent: * - Specificeert dat elke bot door de site kan crawlen.
Disallow: /admin/: - Beperkt de crawler toegang tot beheerdersgegevens.
Sitemap: https://example.com/sitemap.xml - Biedt toegang aan bots om de sitemap te crawlen. Dit maakt het crawlen eenvoudiger omdat de sitemap alle URL's van de site bevat.


Een specifieke zoekmachine beperken in crawling

User-agent: Bingbot 
Disallow: /

Het bovenstaande Robots.txt bestand is zo gedefinieerd dat Bingbot wordt verboden.

User-agent: Bingbot - Specificeert de crawler van de Bing-zoekmachine.
Disallow: / - Beperkt Bingbot om de site te crawlen.


Best Practices

  • Voeg links toe naar de belangrijkste pagina's.

  • Blokkeer links naar pagina's die geen waarde bieden.

  • Voeg de locatie van de sitemap toe aan het Robots.txt-bestand .

  • Een Robots.txt bestand kan niet twee keer worden toegevoegd. Bekijk alstublieft de basisrichtlijnen uit de Google Search Central-documentatie voor meer informatie.

OPMERKING

Een webcrawler, ook wel een Spider of Spiderbot genoemd, is een programma of script dat automatisch door het web navigeert en informatie verzamelt over verschillende websites. Zoekmachines zoals Google, Bing en Yandex gebruiken crawlers om de informatie van een site op hun servers te repliceren.

Crawlers openen nieuwe tabbladen en scrollen door websiteinhoud, net als een gebruiker die een webpagina bekijkt. Daarnaast verzamelen crawlers gegevens of metadata van de website en andere entiteiten (zoals links op een pagina, kapotte links, sitemaps en HTML-code) en sturen deze naar de servers van hun respectievelijke zoekmachine. Zoekmachines gebruiken deze geregistreerde informatie om zoekresultaten effectief te indexeren.


Veelgestelde vragen

Hoe verwijder ik mijn Document360-project uit de Google-zoekindex?

Om het hele project uit te sluiten van de Google-zoekindex:

  1. Navigeer naar Instellingen () in de linker navigatiebalk in het Knowledge base portal.

  2. Ga in het linker navigatiepaneel naar de Knowledge Base-site > Artikelinstellingen & SEO > SEO-tabblad .

  3. Ga naar het tabblad SEO en klik op Bewerken in de Robots.txt.

  4. Plak de volgende code:

User-Agent: Googlebot 
Disallow: 
  1. Klik op Update.

Hoe voorkom ik dat tagpagina's door zoekmachines worden geïndexeerd?

Om de tagpagina's uit de zoekmachines te sluiten:

  1. Ga naar Instellingen () in de linker navigatiebalk.

  2. Ga naar de Knowledge Base-site > Artikelinstellingen & SEO > SEO-tabblad .

  3. Klik op Bewerken in de Robots.txt.

  4. Plak de volgende code:

User-agent: *
Disallow: /docs/en/tags/
  1. Klik op Update.