Documentation Index

Fetch the complete documentation index at: https://docs.document360.com/llms.txt

Use this file to discover all available pages before exploring further.

Descargo de responsabilidad: Este artículo se generó mediante traducción automática.

Robots.txt

Prev Next

Un archivo robots.txt es un archivo de texto colocado en la raíz de tu base de conocimientos y que se comunica con rastreadores web y agentes automatizados. Especifica qué páginas o secciones de tu sitio pueden o no acceder los rastreadores. Motores de búsqueda como Google, Bing y Yandex leen este archivo antes de rastrear tu sitio para determinar qué contenido deben indexar.

NOTA

Un rastreador web, también conocido como spiderbot o spiderbot, es un programa automatizado que navega por la web y recopila información sobre sitios web. Los rastreadores abren páginas, recopilan datos como enlaces, enlaces rotos, mapas de sitio y código HTML, y los envían a los servidores de sus motores de búsqueda para su indexación.

En Document360, el archivo robots.txt es accesible y se puede editar directamente desde la configuración del sitio de la base de conocimientos. Se aplica a toda tu base de conocimientos, no a artículos o categorías individuales.


¿Cuándo usar Robots.txt

  • Evita que los motores de búsqueda rastreen e indexen secciones internas, administrativas o restringidas de tu base de conocimiento.
  • Por ejemplo, bloquea motores de búsqueda específicos para que no indexen completamente tu sitio, para controlar qué motores de búsqueda muestran tu contenido.
  • Añade reglas de retraso de rastreo cuando tu sitio esté experimentando mucho tráfico y quieras reducir la carga causada por la actividad de bots.
  • Combina robots.txt con tu mapa del sitio para que los rastreadores tengan un mapa claro de qué indexar y qué omitir.

NOTA

Robots.txt controla el acceso al rastreador a nivel de sitio. Para excluir artículos o categorías individuales de los resultados de búsqueda, utilice la configuración de visibilidad en la búsqueda. Aprende sobre la visibilidad en las búsquedas


Acceder Robots.txt en Document360

  1. Navega a Configuración () en la barra de navegación izquierda.
  2. Ve a la base de conocimientos, > configuración de artículos y SEO > pestaña SEO .
  3. Localiza Robots.txt y haz clic en Editar. Aparece el panel de ajustes de Robots.txt.
  4. Introduce tus reglas.
  5. Haz clic en Actualizar.
Robots.txt configuration panel in the knowledge base site settings

Reglas de Robots.txt comunes

Bloquea todos los rastreadores de un camino específico

Utilízalo para evitar que los rastreadores accedan a datos de administrador o secciones restringidas.

User-agent: *
Disallow: /admin/
Sitemap: https://example.com/sitemap.xml
  • User-agent: * Aplica la regla a todos los crawlers.
  • Disallow: /admin/ impide que los rastreadores accedan a la ruta de administrador.
  • Sitemap: proporciona la URL del mapa del sitio para que los rastreadores puedan descubrir todas las páginas indexadas de forma eficiente.

Bloquear un motor de búsqueda específico

Utilízalo para evitar que un motor de búsqueda en particular rastree tu sitio.

User-agent: Bingbot
Disallow: /
  • User-agent: Bingbot solo se dirige al rastreador de motores de búsqueda Bing.
  • Disallow: / impide que Bingbot rastree cualquier página del sitio.

Añadir un retardo de rastreo

Úsalo para ralentizar la velocidad de rastreo de los bots cuando tu sitio está bajo una alta carga de tráfico.

User-agent: *
Crawl-delay: 10
  • Crawl-delay: 10 indica a los rastreadores que esperen 10 segundos entre solicitudes.

Mejores prácticas

  • Incluye siempre la URL de tu mapa del sitio en el archivo robots.txt para que los rastreadores puedan descubrir fácilmente tus páginas indexadas.
  • Bloquea páginas que no aportan valor a los usuarios de los motores de búsqueda, como rutas de administrador, páginas de inicio de sesión o rutas de contenido duplicadas.
  • No uses robots.txt como medida de seguridad. Es un archivo público y no impide el acceso humano no autorizado. Usa la configuración de control de acceso para eso.
  • Evita bloquear archivos CSS o JavaScript que los motores de búsqueda necesitan para renderizar y entender tus páginas.
  • Sigue las directrices de formato de Google Search Central para asegurarte de que tu archivo es válido.
  • Prueba tus reglas de robots.txt usando el robots.txt tester de Google Search Console antes de desplegar los cambios.

Preguntas frecuentes

¿Cuál es la diferencia entre la configuración de visibilidad de Robots.txt y la de búsqueda en Document360?

Robots.txt se aplica a nivel de sitio y controla a qué rutas o secciones pueden acceder los rastreadores en toda tu base de conocimiento. La configuración de visibilidad en la búsqueda se aplica a nivel de artículo o categoría y te permite excluir contenido específico de motores de búsqueda externos, la barra de búsqueda de la base de conocimiento o la búsqueda asistida de Eddy AI de forma independiente. Usa ambos juntos para un control preciso sobre lo que se indexa.

¿Cómo puedo eliminar mi proyecto de Document360 del índice de búsqueda de Google?

Ve a Configuración () > Base de conocimientos > Configuración de artículos y SEO > pestaña SEO , haz clic en Editar en Robots.txt, pega el siguiente código y haz clic en Actualizar.

User-Agent: Googlebot
Disallow: /

¿Cómo evito que los motores de búsqueda indexen las páginas de etiquetas?

Ve a Configuración () > Base de conocimientos sitio > Configuración de artículos y SEO > pestaña SEO , haz clic en Editar en Robots.txt, pega el siguiente código y haz clic en Actualizar.

User-agent: *
Disallow: /docs/en/tags/

¿Robots.txt impide que todos los rastreadores accedan a páginas bloqueadas?

Robots.txt es un estándar voluntario. La mayoría de los buscadores de búsqueda de buena reputación, como Googlebot y Bingbot, lo respetan, pero los bots maliciosos pueden ignorarlo por completo. No confíes en robots.txt para proteger contenido sensible o privado. Usa la configuración de control de acceso para ese propósito.

¿Debería incluir la URL de mi mapa del sitio en el archivo robots.txt?

Sí. Incluir la URL del mapa del sitio en tu archivo de robots.txt ayuda a los rastreadores a descubrir todas las páginas de tu base de conocimiento de forma eficiente. Añádelo usando el siguiente formato: Sitemap: https://yourdomain.com/sitemap.xml.