Haftungsausschluss: Dieser Artikel wurde durch maschinelle Übersetzung erstellt.
Pläne zur Unterstützung von Robot.txt
Professionell | Geschäft | Unternehmen |
---|---|---|
Was ist eine Robots.txt Datei?
Eine Robots.txt Datei ist eine Textdatei, die verwendet wird, um mit Webcrawlern und anderen automatisierten Agenten darüber zu kommunizieren, welche Seiten Ihrer Wissensdatenbank nicht indiziert werden sollen. Es enthält Regeln, die festlegen, welche Seiten von welchen Crawlern aufgerufen werden dürfen.
Weitere Informationen finden Sie in diesem help article von Google.
Zugreifen auf Robots.txt in Document360
Navigieren Sie im Wissensdatenbank-Portal zu Einstellungen () > Wissensdatenbank-Website > Registerkarte Artikeleinstellungen & SEO > SEO .
Suchen Sie Robots.txt und klicken Sie auf Bearbeiten.
Das Fenster Robots.txt Einstellungen wird angezeigt.
Geben Sie die gewünschten Regeln ein.
Klicken Sie auf Aktualisieren.
Anwendungsfälle von Robots.txt
Eine Robots.txt Datei kann verhindern, dass ein Ordner, eine Datei (z. B. eine PDF-Datei) oder bestimmte Dateierweiterungen durchsucht werden.
Sie können die Crawling-Geschwindigkeit von Bots auch verzögern, indem Sie Ihrer Robots.txt Datei eine Crawl-Verzögerung hinzufügen. Dies ist nützlich, wenn Ihre Website einen hohen Traffic aufweist.
User-agent: *
Crawl-delay: 10
Einschränkung des Crawlers durch Admin-Daten
User-agent: *
Disallow: /admin/
Sitemap: https://example.com/sitemap.xml
User-agent: *
- Gibt an, dass jeder Bot die Website durchsuchen kann.Disallow: /admin/:
- Hindert den Crawler daran, auf Admin-Daten zuzugreifen.Sitemap: https://example.com/sitemap.xml
- Bietet Zugriff auf Bots, um die Sitemap zu crawlen. Dies erleichtert den Crawling, da die Sitemap alle URLs der Website enthält.
Einschränken des Crawlings einer bestimmten Suchmaschine
User-agent: Bingbot
Disallow: /
Die obige Robots.txt Datei ist so definiert, dass der Bingbot nicht zugelassen wird.
User-agent: Bingbot
- Gibt den Crawler aus der Bing-Suchmaschine an.Disallow: /
- Hindert Bingbot daran, die Website zu crawlen.
Bewährte Methoden
Fügen Sie Links zu den wichtigsten Seiten hinzu.
Blockieren Sie Links zu Seiten, die keinen Wert bieten.
Fügen Sie den Speicherort der Sitemap in der Robots.txt Datei hinzu.
Eine Robots.txt Datei kann nicht doppelt hinzugefügt werden. Weitere Informationen finden Sie in den grundlegenden Richtlinien in der Dokumentation zur Google-Suchzentrale .
ANMERKUNG
Ein Webcrawler, auch bekannt als Spider oder Spiderbot, ist ein Programm oder Skript, das automatisch im Web navigiert und Informationen über verschiedene Websites sammelt. Suchmaschinen wie Google, Bing und Yandex verwenden Crawler, um die Informationen einer Website auf ihren Servern zu replizieren.
Crawler öffnen neue Tabs und scrollen durch Website-Inhalte, genau wie ein Nutzer, der eine Webseite ansieht. Darüber hinaus sammeln Crawler Daten oder Metadaten von der Website und anderen Entitäten (z. B. Links auf einer Seite, defekte Links, Sitemaps und HTML-Code) und senden sie an die Server ihrer jeweiligen Suchmaschine. Suchmaschinen verwenden diese aufgezeichneten Informationen, um Suchergebnisse effektiv zu indizieren.
Häufig gestellte Fragen
Wie entferne ich mein Document360-Projekt aus dem Google-Suchindex?
So schließen Sie das gesamte Projekt aus dem Google-Suchindex aus:
Navigieren Sie im Wissensdatenbank-Portal zu Einstellungen () > Wissensdatenbank-Website > Artikeleinstellungen & SEO.
Gehen Sie zur Registerkarte SEO und klicken Sie in der
Robots.txt
auf Bearbeiten.Fügen Sie den folgenden Code ein:
User-Agent: Googlebot
Klicken Sie auf Aktualisieren.
Wie verhindere ich, dass Tag-Seiten von Suchmaschinen indiziert werden?
So schließen Sie die Tag-Seiten aus den Suchmaschinen aus:
Navigieren Sie im Wissensdatenbank-Portal zu Einstellungen () > Wissensdatenbank-Website > Artikeleinstellungen & SEO.
Gehen Sie zur Registerkarte SEO und klicken Sie in der
Robots.txt
auf Bearbeiten.Fügen Sie den folgenden Code ein:
User-agent: *
Disallow: /docs/en/tags/
Klicken Sie auf Aktualisieren.