Robots.txt

Pläne, die diese Funktion unterstützen: Professional Business Enterprise

Was ist eine Robots.txt Datei?

Eine Robots.txt Datei ist eine Textdatei, die verwendet wird, um mit Webcrawlern und anderen automatisierten Agenten darüber zu kommunizieren, welche Seiten Ihrer Wissensdatenbank nicht indiziert werden sollen. Es enthält Regeln, die festlegen, welche Seiten von welchen Crawlern aufgerufen werden dürfen.

Weitere Informationen finden Sie in diesem help article von Google.

Zugreifen auf Robots.txt in Document360

Navigieren Sie in der linken Navigationsleiste des Knowledge base portalzu Einstellungen ().
Navigieren Sie im linken Navigationsbereich zur Wissensdatenbank-Website > Registerkarte Artikeleinstellungen & SEO > SEO .
Suchen Sie Robots.txt und klicken Sie auf Bearbeiten.
Das Fenster Robots.txt Einstellungen wird angezeigt.
Geben Sie die gewünschten Regeln ein.
Klicken Sie auf Aktualisieren.

Screenshot of robot txt page

Anwendungsfälle von Robots.txt

Eine Robots.txt Datei kann verhindern, dass ein Ordner, eine Datei (z. B. eine PDF-Datei) oder bestimmte Dateierweiterungen durchsucht werden.

Sie können die Crawling-Geschwindigkeit von Bots auch verzögern, indem Sie Ihrer Robots.txt Datei eine Crawl-Verzögerung hinzufügen. Dies ist nützlich, wenn Ihre Website einen hohen Traffic aufweist.

User-agent: *
Crawl-delay: 10

Einschränkung des Crawlers durch Admin-Daten

User-agent: *
Disallow: /admin/
Sitemap: https://example.com/sitemap.xml

User-agent: * - Gibt an, dass jeder Bot die Website durchsuchen kann.
Disallow: /admin/: - Hindert den Crawler daran, auf Admin-Daten zuzugreifen.
Sitemap: https://example.com/sitemap.xml - Bietet Zugriff auf Bots, um die Sitemap zu crawlen. Dies erleichtert den Crawling, da die Sitemap alle URLs der Website enthält.

Einschränken des Crawlings einer bestimmten Suchmaschine

User-agent: Bingbot 
Disallow: /

Die obige Robots.txt Datei ist so definiert, dass der Bingbot nicht zugelassen wird.

User-agent: Bingbot - Gibt den Crawler aus der Bing-Suchmaschine an.
Disallow: / - Hindert Bingbot daran, die Website zu crawlen.

Bewährte Methoden

Fügen Sie Links zu den wichtigsten Seiten hinzu.
Blockieren Sie Links zu Seiten, die keinen Wert bieten.
Fügen Sie den Speicherort der Sitemap in der Robots.txt Datei hinzu.
Eine Robots.txt Datei kann nicht doppelt hinzugefügt werden. Weitere Informationen finden Sie in den grundlegenden Richtlinien in der Dokumentation zur Google-Suchzentrale .

ANMERKUNG
Ein Webcrawler, auch bekannt als Spider oder Spiderbot, ist ein Programm oder Skript, das automatisch im Web navigiert und Informationen über verschiedene Websites sammelt. Suchmaschinen wie Google, Bing und Yandex verwenden Crawler, um die Informationen einer Website auf ihren Servern zu replizieren.
Crawler öffnen neue Tabs und scrollen durch Website-Inhalte, genau wie ein Nutzer, der eine Webseite ansieht. Darüber hinaus sammeln Crawler Daten oder Metadaten von der Website und anderen Entitäten (z. B. Links auf einer Seite, defekte Links, Sitemaps und HTML-Code) und senden sie an die Server ihrer jeweiligen Suchmaschine. Suchmaschinen verwenden diese aufgezeichneten Informationen, um Suchergebnisse effektiv zu indizieren.

Häufig gestellte Fragen

Wie entferne ich mein Document360-Projekt aus dem Google-Suchindex?

So schließen Sie das gesamte Projekt aus dem Google-Suchindex aus:

Navigieren Sie zu Einstellungen () in der linken Navigationsleiste im Knowledge base portal.
Navigieren Sie im linken Navigationsbereich zur Wissensdatenbank-Website > Registerkarte Artikeleinstellungen & SEO > SEO .
Gehen Sie zur Registerkarte SEO und klicken Sie in der Robots.txtauf Bearbeiten.
Fügen Sie den folgenden Code ein:

User-Agent: Googlebot 
Disallow:

Klicken Sie auf Aktualisieren.

Wie verhindere ich, dass Tag-Seiten von Suchmaschinen indiziert werden?

So schließen Sie die Tag-Seiten aus den Suchmaschinen aus:

Navigieren Sie in der linken Navigationsleiste des Knowledge base portalzu Einstellungen ().
Navigieren Sie im linken Navigationsbereich zur Wissensdatenbank-Website > Registerkarte Artikeleinstellungen & SEO > SEO .
Gehen Sie zur Registerkarte SEO und klicken Sie in der Robots.txtauf Bearbeiten.
Fügen Sie den folgenden Code ein:

User-agent: *
Disallow: /docs/en/tags/

Klicken Sie auf Aktualisieren.