Robots.txt

Planes que admiten esta función: Professional Business Enterprise

¿Qué es un archivo Robots.txt?

Un archivo de Robots.txt es un archivo de texto que se utiliza para comunicarse con los rastreadores web y otros agentes automatizados sobre qué páginas de la base de conocimientos no se deben indexar. Contiene reglas que especifican a qué páginas pueden acceder los rastreadores.

Para obtener más información, lea este help article de Google.

Acceso a Robots.txt en Document360

Vaya a Configuración () en la barra de navegación izquierda de la Portal de la base de conocimientos.
En el panel de navegación izquierdo, vaya al sitio de la base de conocimientos > Configuración de artículos y SEO > pestaña SEO .
Localice Robots.txt y haga clic en Editar.
Aparecerá el Robots.txt panel de configuración .
Escribe las reglas que desees.
Haga clic en Actualizar.

Screenshot of robot txt page

Casos de uso de Robots.txt

Un archivo Robots.txt puede bloquear el rastreo de una carpeta, un archivo (como un PDF) o extensiones de archivo específicas.

También puede retrasar la velocidad de rastreo de los bots agregando crawl-delay en su archivo Robots.txt. Esto es útil cuando tu sitio está experimentando mucho tráfico.

User-agent: *
Crawl-delay: 10

Restricción del rastreador a través de los datos de administrador

User-agent: *
Disallow: /admin/
Sitemap: https://example.com/sitemap.xml

User-agent: * - Especifica que cualquier bot puede rastrear el sitio.
Disallow: /admin/: - Restringe el acceso del rastreador a los datos de administración.
Sitemap: https://example.com/sitemap.xml - Proporciona acceso a bots para rastrear el mapa del sitio. Esto facilita el rastreo, ya que el mapa del sitio contiene todas las URL del sitio.

Restringir el rastreo de un motor de búsqueda específico

User-agent: Bingbot 
Disallow: /

El archivo Robots.txt anterior está definido para no permitir el Bingbot.

User-agent: Bingbot - Especifica el rastreador del motor de búsqueda de Bing.
Disallow: / - Restringe a Bingbot el rastreo del sitio.

Prácticas recomendadas

Incluye enlaces a las páginas más importantes.
Bloquea los enlaces a páginas que no aportan ningún valor.
Agregue la ubicación del mapa del sitio en el archivo Robots.txt .
Un archivo Robots.txt no se puede agregar dos veces. Para obtener más información, consulta los lineamientos básicos de la documentación de la Central de Búsqueda de Google .

NOTA
Un rastreador web, también conocido como Spider o Spiderbot, es un programa o script que navega automáticamente por la web y recopila información sobre varios sitios web. Los motores de búsqueda como Google, Bing y Yandex utilizan rastreadores para replicar la información de un sitio en sus servidores.
Los rastreadores abren nuevas pestañas y se desplazan por el contenido del sitio web, como un usuario que ve una página web. Además, los rastreadores recopilan datos o metadatos del sitio web y otras entidades (como enlaces en una página, enlaces rotos, mapas del sitio y código HTML) y los envían a los servidores de su respectivo motor de búsqueda. Los motores de búsqueda utilizan esta información registrada para indexar los resultados de búsqueda de manera efectiva.

Preguntas frecuentes

¿Cómo puedo eliminar mi proyecto de Document360 del índice de búsqueda de Google?

Para excluir todo el proyecto del índice de búsqueda de Google:

Vaya a Configuración () en la barra de navegación izquierda de la Portal de la base de conocimientos.
En el panel de navegación izquierdo, vaya al sitio de la base de conocimientos > Configuración de artículos y SEO > pestaña SEO .
Ve a la pestaña SEO y haz clic en Editar en el Robots.txtarchivo .
Pega el siguiente código:

User-Agent: Googlebot 
Disallow:

Haga clic en Actualizar.

¿Cómo evito que los motores de búsqueda indexen las páginas de etiquetas?

Para excluir las páginas de etiquetas de los motores de búsqueda:

Vaya a Configuración () en la barra de navegación izquierda de la Portal de la base de conocimientos.
En el panel de navegación izquierdo, vaya al sitio de la base de conocimientos > Configuración del artículo y SEO > pestaña SEO .
Ve a la pestaña SEO y haz clic en Editar en el Robots.txtarchivo .
Pega el siguiente código:

User-agent: *
Disallow: /docs/en/tags/

Haga clic en Actualizar.