Descargo de responsabilidad: Este artículo se generó mediante traducción automática.
Planes de apoyo para Robot.txt
Profesional | Negocio | Empresa |
---|---|---|
¿Qué es un archivo Robots.txt?
Un archivo de Robots.txt es un archivo de texto que se utiliza para comunicarse con los rastreadores web y otros agentes automatizados sobre qué páginas de la base de conocimientos no se deben indexar. Contiene reglas que especifican a qué páginas pueden acceder los rastreadores.
Para obtener más información, lea este help article de Google.
Acceso a Robots.txt en Document360
Vaya a Configuración () > sitio de la base de conocimientos > Configuración de artículos y SEO > pestaña SEO en el portal de la base de conocimientos.
Localice Robots.txt y haga clic en Editar.
Aparecerá el Robots.txt panel de configuración .
Escribe las reglas que desees.
Haga clic en Actualizar.
Casos de uso de Robots.txt
Un archivo Robots.txt puede bloquear el rastreo de una carpeta, un archivo (como un PDF) o extensiones de archivo específicas.
También puede retrasar la velocidad de rastreo de los bots agregando crawl-delay en su archivo Robots.txt. Esto es útil cuando tu sitio está experimentando mucho tráfico.
User-agent: *
Crawl-delay: 10
Restricción del rastreador a través de los datos de administrador
User-agent: *
Disallow: /admin/
Sitemap: https://example.com/sitemap.xml
User-agent: *
- Especifica que cualquier bot puede rastrear el sitio.Disallow: /admin/:
- Restringe el acceso del rastreador a los datos de administración.Sitemap: https://example.com/sitemap.xml
- Proporciona acceso a bots para rastrear el mapa del sitio. Esto facilita el rastreo, ya que el mapa del sitio contiene todas las URL del sitio.
Restringir el rastreo de un motor de búsqueda específico
User-agent: Bingbot
Disallow: /
El archivo Robots.txt anterior está definido para no permitir el Bingbot.
User-agent: Bingbot
- Especifica el rastreador del motor de búsqueda de Bing.Disallow: /
- Restringe a Bingbot el rastreo del sitio.
Prácticas recomendadas
Incluye enlaces a las páginas más importantes.
Bloquea los enlaces a páginas que no aportan ningún valor.
Agregue la ubicación del mapa del sitio en el archivo Robots.txt .
Un archivo Robots.txt no se puede agregar dos veces. Para obtener más información, consulta los lineamientos básicos de la documentación de la Central de Búsqueda de Google .
NOTA
Un rastreador web, también conocido como Spider o Spiderbot, es un programa o script que navega automáticamente por la web y recopila información sobre varios sitios web. Los motores de búsqueda como Google, Bing y Yandex utilizan rastreadores para replicar la información de un sitio en sus servidores.
Los rastreadores abren nuevas pestañas y se desplazan por el contenido del sitio web, como un usuario que ve una página web. Además, los rastreadores recopilan datos o metadatos del sitio web y otras entidades (como enlaces en una página, enlaces rotos, mapas del sitio y código HTML) y los envían a los servidores de su respectivo motor de búsqueda. Los motores de búsqueda utilizan esta información registrada para indexar los resultados de búsqueda de manera efectiva.
Preguntas frecuentes
¿Cómo puedo eliminar mi proyecto de Document360 del índice de búsqueda de Google?
Para excluir todo el proyecto del índice de búsqueda de Google:
Vaya a Configuración () > sitio de la base de conocimientos > Configuración de artículos y SEO en el portal de la base de conocimientos.
Ve a la pestaña SEO y haz clic en Editar en el
Robots.txt
archivo .Pega el siguiente código:
User-Agent: Googlebot
Haga clic en Actualizar.
¿Cómo evito que los motores de búsqueda indexen las páginas de etiquetas?
Para excluir las páginas de etiquetas de los motores de búsqueda:
Vaya a Configuración () > sitio de la base de conocimientos > Configuración de artículos y SEO en el portal de la base de conocimientos.
Ve a la pestaña SEO y haz clic en Editar en el
Robots.txt
archivo .Pega el siguiente código:
User-agent: *
Disallow: /docs/en/tags/
Haga clic en Actualizar.