Abonnementen die deze functie ondersteunen: Professional Business Enterprise
Wat is een Robots.txt bestand?
Een Robots.txt bestand is een tekstbestand dat wordt gebruikt om te communiceren met webcrawlers en andere geautomatiseerde agenten over welke pagina's van uw kennisbank niet mogen worden geïndexeerd. Het bevat regels die aangeven welke pagina's door welke crawlers mogen worden geopend.
Lees voor meer informatie deze help article van Google.
Toegang tot Robots.txt in Document360
Navigeer naar Instellingen () in de linkernavigatiebalk in de .
Navigeer in het linkernavigatievenster naar het tabblad Kennisbanksite > Artikelinstellingen en SEO > SEO.
Zoek Robots.txt en klik op Bewerken.
Het instellingenpaneel Robots.txt verschijnt.
Typ de gewenste regels in.
Klik op Bijwerken.
Gebruiksscenario's van Robots.txt
Met een Robots.txt bestand kan worden voorkomen dat een map, bestand (zoals een pdf) of specifieke bestandsextensies worden verkend.
U kunt de crawlsnelheid van bots ook vertragen door crawlvertraging toe te voegen aan uw Robots.txt bestand. Dit is handig wanneer uw site veel verkeer ervaart.
User-agent: *
Crawl-delay: 10
De crawler beperken via beheerdersgegevens
User-agent: *
Disallow: /admin/
Sitemap: https://example.com/sitemap.xml
User-agent: *
- Geeft aan dat elke bot door de site kan kruipen.Disallow: /admin/:
- Beperkt de toegang van de crawler tot beheerdersgegevens.Sitemap: https://example.com/sitemap.xml
- Biedt toegang tot bots om de sitemap te crawlen. Dit maakt het crawlen gemakkelijker omdat de sitemap alle URL's van de site bevat.
Beperken van het crawlen van een specifieke zoekmachine
User-agent: Bingbot
Disallow: /
Het bovenstaande Robots.txt-bestand is gedefinieerd om de Bingbot niet toe te staan.
User-agent: Bingbot
- Specificeert de crawler van de Bing-zoekmachine.Disallow: /
- Beperkt Bingbot van het crawlen van de site.
Praktische tips
Voeg links toe naar de belangrijkste pagina's.
Blokkeer links naar pagina's die geen enkele waarde bieden.
Voeg de locatie van de sitemap toe aan het bestand Robots.txt .
Een Robots.txt bestand kan niet twee keer worden toegevoegd. Raadpleeg de basisrichtlijnen in de documentatie van Google Search Central voor meer informatie.
NOTITIE
Een webcrawler, ook wel Spider of Spiderbot genoemd, is een programma of script dat automatisch op internet navigeert en informatie verzamelt over verschillende websites. Zoekmachines zoals Google, Bing en Yandex gebruiken crawlers om de informatie van een site op hun servers te repliceren.
Crawlers openen nieuwe tabbladen en scrollen door de inhoud van de website, net als een gebruiker die een webpagina bekijkt. Daarnaast verzamelen crawlers gegevens of metadata van de website en andere entiteiten (zoals links op een pagina, verbroken links, sitemaps en HTML-code) en sturen deze naar de servers van hun respectievelijke zoekmachine. Zoekmachines gebruiken deze geregistreerde informatie om zoekresultaten effectief te indexeren.
Veelgestelde vragen
Hoe verwijder ik mijn Document360-project uit de zoekindex van Google?
Het hele project uitsluiten van de zoekindex van Google:
Navigeer naar Instellingen () in de linkernavigatiebalk in de .
Navigeer in het linkernavigatiedeelvenster naar de Knowledge Base-site > tabblad Artikelinstellingen en SEO > SEO .
Ga naar het tabblad SEO en klik op Bewerken in het .
Robots.txt
Plak de volgende code:
User-Agent: Googlebot
Disallow:
Klik op Bijwerken.
Hoe voorkom ik dat tagpagina's worden geïndexeerd door zoekmachines?
Om de tagpagina's uit te sluiten van de zoekmachines:
Navigeer naar Instellingen () in de linkernavigatiebalk in de .
Navigeer in het linkernavigatiedeelvenster naar de kennisbanksite > tabblad Artikelinstellingen en SEO > SEO .
Ga naar het tabblad SEO en klik op Bewerken in het .
Robots.txt
Plak de volgende code:
User-agent: *
Disallow: /docs/en/tags/
Klik op Bijwerken.