Planos que suportam este recurso: Professional Business Enterprise
O que é um arquivo Robots.txt?
Um arquivo Robots.txt é um arquivo de texto usado para se comunicar com rastreadores da Web e outros agentes automatizados sobre quais páginas da sua base de conhecimento não devem ser indexadas. Ele contém regras que especificam quais páginas podem ser acessadas por quais rastreadores.
Para obter mais informações, leia este help article do Google.
Acessando Robots.txt no Document360
Navegue até Configurações () na barra de navegação esquerda no Portal da base de conhecimento.
No painel de navegação esquerdo, navegue até a guia Configurações do artigo e SEO > SEO do site da base de dados de conhecimento >.
Localize Robots.txt e clique em Editar.
O painel de configurações Robots.txt aparecerá.
Digite as regras desejadas.
Clique em Atualizar.
Casos de uso de Robots.txt
Um arquivo Robots.txt pode impedir que uma pasta, um arquivo (como um PDF) ou extensões de arquivo específicas sejam rastreados.
Você também pode atrasar a velocidade de rastreamento dos bots adicionando atraso de rastreamento em seu arquivo Robots.txt. Isso é útil quando seu site está com alto tráfego.
User-agent: *
Crawl-delay: 10
Restringir o rastreador por meio de dados de administrador
User-agent: *
Disallow: /admin/
Sitemap: https://example.com/sitemap.xml
User-agent: *
- Especifica que qualquer bot pode rastrear o site.Disallow: /admin/:
- Restringe o acesso do rastreador aos dados do administrador.Sitemap: https://example.com/sitemap.xml
- Fornece acesso a bots para rastrear o mapa do site. Isso facilita o rastreamento, pois o mapa do site contém todos os URLs do site.
Restringir o rastreamento de um mecanismo de pesquisa específico
User-agent: Bingbot
Disallow: /
O arquivo Robots.txt acima é definido para não permitir o Bingbot.
User-agent: Bingbot
- Especifica o rastreador do mecanismo de pesquisa do Bing.Disallow: /
- Restringe o Bingbot de rastrear o site.
Melhores práticas
Inclua links para as páginas mais importantes.
Bloqueie links para páginas que não fornecem nenhum valor.
Adicione a localização do mapa do site no arquivo Robots.txt .
Um arquivo Robots.txt não pode ser adicionado duas vezes. Consulte as diretrizes básicas da documentação da Central de Pesquisa do Google para obter mais informações.
NOTA
Um rastreador da web, também conhecido como Spider ou Spiderbot, é um programa ou script que navega automaticamente na web e coleta informações sobre vários sites. Mecanismos de pesquisa como Google, Bing e Yandex usam rastreadores para replicar as informações de um site em seus servidores.
Os rastreadores abrem novas guias e rolam pelo conteúdo do site, assim como um usuário visualizando uma página da web. Além disso, os rastreadores coletam dados ou metadados do site e de outras entidades (como links em uma página, links quebrados, mapas do site e código HTML) e os enviam para os servidores de seu respectivo mecanismo de pesquisa. Os mecanismos de pesquisa usam essas informações registradas para indexar os resultados da pesquisa de forma eficaz.
Perguntas frequentes
Como faço para remover meu projeto do Document360 do índice de pesquisa do Google?
Para excluir todo o projeto do índice de pesquisa do Google:
Navegue até Configurações () na barra de navegação esquerda no Portal da base de conhecimento.
No painel de navegação esquerdo, navegue até a guia Configurações do artigo e > SEO do site da base de dados de conhecimento > Artigo.
Vá para a guia SEO e clique em Editar no
Robots.txt
.Cole o seguinte código:
User-Agent: Googlebot
Disallow:
Clique em Atualizar.
Como evito que as páginas de tags sejam indexadas pelos mecanismos de pesquisa?
Para excluir as páginas de tags dos mecanismos de pesquisa:
Navegue até Configurações () na barra de navegação esquerda no Portal da base de conhecimento.
No painel de navegação esquerdo, navegue até o site da base de conhecimento > Configurações do artigo e SEO > guia SEO .
Vá para a guia SEO e clique em Editar no
Robots.txt
.Cole o seguinte código:
User-agent: *
Disallow: /docs/en/tags/
Clique em Atualizar.