Een robots.txt-bestand is een tekstbestand dat aan de wortel van je kennisbanksite wordt geplaatst en communiceert met webcrawlers en geautomatiseerde agenten. Het specificeert welke pagina's of secties van je sitecrawlers wel of niet toegankelijk zijn. Zoekmachines zoals Google, Bing en Yandex lezen dit bestand voordat ze je site doorzoeken om te bepalen welke content ze moeten indexeren.
Een webcrawler, ook wel spider of spiderbot genoemd, is een geautomatiseerd programma dat zich op het web bezighoudt en informatie verzamelt over websites. Crawlers openen pagina's, verzamelen gegevens zoals links, kapotte links, sitemaps en HTML-code, en sturen deze naar de servers van hun zoekmachine voor indexering.
In Document360 is het robots.txt-bestand toegankelijk en bewerkbaar direct vanuit de instellingen van de kennisbank. Het geldt voor je hele kennisbasissite, niet voor individuele artikelen of categorieën.
Wanneer te gebruiken Robots.txt
- Voorkom dat zoekmachines interne, administratieve of beperkte secties van je kennisbank doorzoeken en indexeren.
- Blokkeer bijvoorbeeld specifieke zoekmachines om je site volledig te indexeren om te bepalen welke zoekmachines je content tonen.
- Voeg regels voor crawlvertraging toe wanneer je site veel verkeer heeft en je de belasting door botactiviteit wilt verminderen.
- Combineer robots.txt met je sitemap om crawlers een duidelijk overzicht te geven van wat je moet indexeren en wat je moet overslaan.
Robots.txt beheert de toegang tot crawlers op site-niveau. Om individuele artikelen of categorieën uit de zoekresultaten te sluiten, gebruik je in plaats daarvan de instellingen voor zoekzichtbaarheid. Lees meer over zoekzichtbaarheid
Toegang Robots.txt in Document360
- Ga naar Instellingen () in de linker navigatiebalk.
- Ga naar de Knowledge Base-site > Artikelinstellingen en het tabblad SEO >.
- Zoek Robots.txt en klik op Bewerken. Het Robots.txt instellingenpaneel verschijnt.
- Voer je regels in.
- Klik op Update.
Regels van de Robots.txt
Blokkeer alle crawlers van een specifiek pad
Gebruik dit om te voorkomen dat crawlers toegang krijgen tot beheerdersgegevens of beperkte secties.
User-agent: *
Disallow: /admin/
Sitemap: https://example.com/sitemap.xml
User-agent: *De regel geldt voor alle crawlers.Disallow: /admin/voorkomt dat crawlers toegang krijgen tot het adminpad.Sitemap:biedt de sitemap-URL zodat crawlers alle geïndexeerde pagina's efficiënt kunnen vinden.
Blokkeer een specifieke zoekmachine
Gebruik dit om te voorkomen dat een bepaalde zoekmachine je site crawlt.
User-agent: Bingbot
Disallow: /
User-agent: Bingbotricht zich alleen op de zoekmachinecrawler van Bing.Disallow: /voorkomt dat Bingbot een pagina op de site crawlt.
Voeg een crawl-delay toe
Gebruik dit om de crawlsnelheid van bots te vertragen wanneer je site veel verkeer heeft.
User-agent: *
Crawl-delay: 10
Crawl-delay: 10Instrueert crawlers om 10 seconden te wachten tussen verzoeken.
Best practices
- Neem altijd je sitemap-URL op in het robots.txt-bestand zodat crawlers gemakkelijk je geïndexeerde pagina's kunnen vinden.
- Blokkeerpagina's die geen waarde bieden voor zoekmachinegebruikers, zoals beheerderspaden, inlogpagina's of dubbele contentpaden.
- Gebruik robots.txt niet als beveiligingsmaatregel. Het is een openbaar bestand en voorkomt geen ongeautoriseerde menselijke toegang. Gebruik daarvoor toegangscontrole-instellingen.
- Vermijd het blokkeren van CSS- of JavaScript-bestanden die zoekmachines nodig hebben om je pagina's te renderen en te begrijpen.
- Volg de formaatrichtlijnen van Google Search Central om te zorgen dat je bestand geldig is.
- Test je robots.txt regels met de robots.txt-tester van Google Search Console voordat je wijzigingen uitrolt.
FAQ
Wat is het verschil tussen Robots.txt- en zoekzichtbaarheidsinstellingen in Document360?
Robots.txt geldt op siteniveau en bepaalt welke paden of secties crawlers kunnen benaderen in je hele kennisbasis. Zoekzichtbaarheidsinstellingen zijn van toepassing op artikel- of categorieniveau en laten je specifieke inhoud onafhankelijk uitsluiten van externe zoekmachines, de zoekbalk van de kennisbasis of Eddy AI-ondersteunende zoekopdrachten. Gebruik beide samen voor nauwkeurige controle over wat er wordt geïndexeerd.
Hoe verwijder ik mijn Document360-project uit de Google-zoekindex?
Ga naar Instellingen () > Knowledge base site > Artikelinstellingen en SEO -> tabblad SEO, klik op Bewerken in Robots.txt, plak de volgende code en klik op Update.
User-Agent: Googlebot
Disallow: /
Hoe voorkom ik dat tagpagina's door zoekmachines worden geïndexeerd?
Ga naar Instellingen () > Kennisbank site > Artikelinstellingen en SEO > SEO-tabblad, klik op Bewerken in Robots.txt, plak de volgende code en klik op Bijwerken.
User-agent: *
Disallow: /docs/en/tags/
Voorkomt Robots.txt dat alle crawlers toegang krijgen tot geblokkeerde pagina's?
Robots.txt is een vrijwillige norm. De meeste gerenommeerde zoekmachinecrawlers zoals Googlebot en Bingbot respecteren het, maar kwaadaardige bots negeren het volledig. Vertrouw niet op robots.txt om gevoelige of privé inhoud te beschermen. Gebruik daarvoor toegangscontrole-instellingen.
Moet ik mijn sitemap-URL opnemen in het robots.txt-bestand?
Ja. Het opnemen van de sitemap-URL in je robots.txt-bestand helpt crawlers om alle pagina's op je kennisbanksite efficiënt te ontdekken. Voeg het toe in het volgende formaat: Sitemap: https://yourdomain.com/sitemap.xml.