Disclaimer: Dit artikel is gegenereerd door automatische vertaling.
Plans supporting for Robot.txt
Professional | Business | Enterprise |
---|---|---|
Wat is een Robots.txt bestand?
Een Robots.txt-bestand is een tekstbestand dat wordt gebruikt om met webcrawlers en andere geautomatiseerde agenten te communiceren over welke pagina's van uw kennisbank niet moeten worden geïndexeerd. Het bevat regels die aangeven welke pagina's door welke crawlers mogen worden geopend.
Lees voor meer informatie deze help article van Google.
Toegang tot Robots.txt in Document360
Navigeer naar Instellingen () > tabblad Kennisbanksite > Artikelinstellingen & SEO > SEO in de Kennisbankportal.
Zoek Robots.txt en klik op Bewerken.
Het instellingenpaneel Robots.txt verschijnt.
Typ de gewenste regels in.
Klik op Bijwerken.
Gebruiksscenario's van Robots.txt
Een Robots.txt bestand kan voorkomen dat een map, bestand (zoals een pdf) of specifieke bestandsextensies worden gecrawld.
U kunt de crawlsnelheid van bots ook vertragen door crawl-delay toe te voegen aan uw Robots.txt-bestand. Dit is handig wanneer uw site veel verkeer ervaart.
User-agent: *
Crawl-delay: 10
De crawler beperken via beheerdersgegevens
User-agent: *
Disallow: /admin/
Sitemap: https://example.com/sitemap.xml
User-agent: *
- Geeft aan dat elke bot door de site kan crawlen.Disallow: /admin/:
- Beperkt de toegang van de crawler tot beheerdersgegevens.Sitemap: https://example.com/sitemap.xml
- Biedt toegang tot bots om de sitemap te crawlen. Dit maakt het crawlen gemakkelijker omdat de sitemap alle URL's van de site bevat.
Het crawlen van een specifieke zoekmachine beperken
User-agent: Bingbot
Disallow: /
Het bovenstaande Robots.txt bestand is gedefinieerd om de Bingbot niet toe te staan.
User-agent: Bingbot
- Specificeert de crawler van de Bing-zoekmachine.Disallow: /
- Voorkomt dat Bingbot de site crawlt.
Praktische tips
Voeg links toe naar de belangrijkste pagina's.
Blokkeer links naar pagina's die geen waarde bieden.
Voeg de locatie van de sitemap toe aan het Robots.txt bestand.
Een Robots.txt bestand kan niet twee keer worden toegevoegd. Raadpleeg de basisrichtlijnen in de documentatie van Google Search Central voor meer informatie.
NOTITIE
Een webcrawler, ook wel Spider of Spiderbot genoemd, is een programma of script dat automatisch op internet navigeert en informatie verzamelt over verschillende websites. Zoekmachines zoals Google, Bing en Yandex gebruiken crawlers om de informatie van een site op hun servers te repliceren.
Crawlers openen nieuwe tabbladen en scrollen door de inhoud van de website, net als een gebruiker die een webpagina bekijkt. Bovendien verzamelen crawlers gegevens of metadata van de website en andere entiteiten (zoals links op een pagina, gebroken links, sitemaps en HTML-code) en sturen deze naar de servers van hun respectieve zoekmachine. Zoekmachines gebruiken deze geregistreerde informatie om zoekresultaten effectief te indexeren.
VEELGESTELDE VRAGEN
Hoe verwijder ik mijn Document360-project uit de zoekindex van Google?
Ga als volgt te werk om het hele project uit te sluiten van de zoekindex van Google:
Navigeer naar Instellingen () > Kennisbanksite > Artikelinstellingen & SEO in de Kennisbankportal.
Ga naar het tabblad SEO en klik op Bewerken in het
Robots.txt
.Plak de volgende code:
User-Agent: Googlebot
Klik op Bijwerken.
Hoe voorkom ik dat tagpagina's worden geïndexeerd door zoekmachines?
Om de tagpagina's uit te sluiten van de zoekmachines:
Navigeer naar Instellingen () > Kennisbanksite > Artikelinstellingen & SEO in de Kennisbankportal.
Ga naar het tabblad SEO en klik op Bewerken in het
Robots.txt
.Plak de volgende code:
User-agent: *
Disallow: /docs/en/tags/
Klik op Bijwerken.