Disclaimer: Dit artikel is gegenereerd door automatische vertaling.

Robots.txt

Prev Next

Disclaimer: Dit artikel is gegenereerd door automatische vertaling.

Plans supporting for Robot.txt

Professional
Business
Enterprise






Wat is een Robots.txt bestand?

Een Robots.txt-bestand is een tekstbestand dat wordt gebruikt om met webcrawlers en andere geautomatiseerde agenten te communiceren over welke pagina's van uw kennisbank niet moeten worden geïndexeerd. Het bevat regels die aangeven welke pagina's door welke crawlers mogen worden geopend.

Lees voor meer informatie deze help article van Google.


Toegang tot Robots.txt in Document360

  1. Navigeer naar Instellingen () > tabblad Kennisbanksite > Artikelinstellingen & SEO > SEO in de Kennisbankportal.

  2. Zoek Robots.txt en klik op Bewerken.

    Het instellingenpaneel Robots.txt verschijnt.

  3. Typ de gewenste regels in.

  4. Klik op Bijwerken.

Screenshot of robot txt page


Gebruiksscenario's van Robots.txt

Een Robots.txt bestand kan voorkomen dat een map, bestand (zoals een pdf) of specifieke bestandsextensies worden gecrawld.

U kunt de crawlsnelheid van bots ook vertragen door crawl-delay toe te voegen aan uw Robots.txt-bestand. Dit is handig wanneer uw site veel verkeer ervaart.

User-agent: *
Crawl-delay: 10

De crawler beperken via beheerdersgegevens

User-agent: *
Disallow: /admin/
Sitemap: https://example.com/sitemap.xml

User-agent: * - Geeft aan dat elke bot door de site kan crawlen.
Disallow: /admin/: - Beperkt de toegang van de crawler tot beheerdersgegevens.
Sitemap: https://example.com/sitemap.xml - Biedt toegang tot bots om de sitemap te crawlen. Dit maakt het crawlen gemakkelijker omdat de sitemap alle URL's van de site bevat.


Het crawlen van een specifieke zoekmachine beperken

User-agent: Bingbot 
Disallow: /

Het bovenstaande Robots.txt bestand is gedefinieerd om de Bingbot niet toe te staan.

User-agent: Bingbot - Specificeert de crawler van de Bing-zoekmachine.
Disallow: / - Voorkomt dat Bingbot de site crawlt.


Praktische tips

  • Voeg links toe naar de belangrijkste pagina's.

  • Blokkeer links naar pagina's die geen waarde bieden.

  • Voeg de locatie van de sitemap toe aan het Robots.txt bestand.

  • Een Robots.txt bestand kan niet twee keer worden toegevoegd. Raadpleeg de basisrichtlijnen in de documentatie van Google Search Central voor meer informatie.

NOTITIE

Een webcrawler, ook wel Spider of Spiderbot genoemd, is een programma of script dat automatisch op internet navigeert en informatie verzamelt over verschillende websites. Zoekmachines zoals Google, Bing en Yandex gebruiken crawlers om de informatie van een site op hun servers te repliceren.

Crawlers openen nieuwe tabbladen en scrollen door de inhoud van de website, net als een gebruiker die een webpagina bekijkt. Bovendien verzamelen crawlers gegevens of metadata van de website en andere entiteiten (zoals links op een pagina, gebroken links, sitemaps en HTML-code) en sturen deze naar de servers van hun respectieve zoekmachine. Zoekmachines gebruiken deze geregistreerde informatie om zoekresultaten effectief te indexeren.


VEELGESTELDE VRAGEN

Hoe verwijder ik mijn Document360-project uit de zoekindex van Google?

Ga als volgt te werk om het hele project uit te sluiten van de zoekindex van Google:

  1. Navigeer naar Instellingen () > Kennisbanksite > Artikelinstellingen & SEO in de Kennisbankportal.

  2. Ga naar het tabblad SEO en klik op Bewerken in het Robots.txt.

  3. Plak de volgende code:

User-Agent: Googlebot 
  1. Klik op Bijwerken.

Hoe voorkom ik dat tagpagina's worden geïndexeerd door zoekmachines?

Om de tagpagina's uit te sluiten van de zoekmachines:

  1. Navigeer naar Instellingen () > Kennisbanksite > Artikelinstellingen & SEO in de Kennisbankportal.

  2. Ga naar het tabblad SEO en klik op Bewerken in het Robots.txt.

  3. Plak de volgende code:

User-agent: *
Disallow: /docs/en/tags/
  1. Klik op Bijwerken.