Testes de segurança e defesa de IA

Este artigo explica como a Eddy AI é testada e defendida contra uso indevido, conteúdo prejudicial e ataques adversariais. Todos os testes descritos aqui são feitos com fins defensivos – para tornar a IA do Eddy mais segura e confiável para você.

API de moderação

O que é:

Um filtro de segurança automatizado que filtra tanto os prompts dos usuários recebidos quanto as respostas de IA que saem para conteúdo prejudicial — incluindo conteúdo violento, sexual, odioso ou relacionado a automutilação, e outros materiais restritos por políticas.

Como usamos:

A API de Moderação é acionada em cada prompt do usuário e em cada resposta candidata.
Se o conteúdo for sinalizado, a IA do Eddy bloqueia a resposta, redige o conteúdo ou direciona para cópias de reserva seguras.
Todos os prompts bloqueados são registrados para revisão de conformidade.

O que isso significa para o cliente:

Reduz o risco de respostas inseguras ou que violam políticas aparecerem na sua base de conhecimento. Ajuda você a aplicar políticas de uso aceitável para seus usuários finais.

Controles operacionais:

Moderação pré-prompt e pós-resposta aplicada em todas as superfícies interativas.
Etiquetas de severidade aplicadas nos registros para revisão de conformidade.
Ajuste periódico de limiar para equilibrar a precisão da detecção contra falsos positivos.

Teste de Jailbreak no estilo DAN

O que é:

"DAN" (Faça Qualquer Coisa) é um tipo bem conhecido de ataque de fuga de jailbreak. Ele tenta coagir um modelo de IA a ignorar suas instruções, políticas ou permissões — frequentemente usando role-play, comandos de substituição de políticas ou cargas úteis de instruções aninhadas. Usamos "DAN" como abreviação para toda essa classe de ataques de engenharia de prompts.

Como usamos:

Mantemos um corpus de prompts de jailbreak no estilo DAN e relacionados.
Essas operações são realizadas contra ambientes de staging como parte da nossa prática de red teaming.
Usamos os resultados para reforçar os prompts do sistema, isolar o contexto recuperado e verificar se o modelo se recusa a agir fora de seu escopo definido.

O que isso significa para o cliente:

As respostas da Eddy AI permanecem fundamentadas no conteúdo da sua base de dados autorizada. Ataques de substituição de instruções são bloqueados.

Controles operacionais:

Replay regular de conjuntos de teste de jailbreak (incluindo variantes DAN) antes de cada lançamento.
Regras de proteção que anulam "ignorar instruções anteriores" e comandos de sobreposição similares.
Alertas automáticos acionados em qualquer jailbreak bem-sucedido na pré-produção — a implantação é bloqueada até que o problema seja resolvido.

NOTA

O Document360 não endossa nem habilita nenhum "modo DAN". Todas as referências ao DAN são estritamente sobre testes defensivos.

Testes Adversariais

O que é:

Tentativas estruturadas e sistemáticas de quebrar ou degradar a IA do Eddy usando entradas hostis. Isso inclui enchimento de tokens, injeções de prompts, contaminação de contexto, truques unicode/codificação, ataques de logit e prompts de negação de carteira (entradas projetadas para esgotar recursos de computação).

Como usamos:

Testes adversariais contínuos são executados em todo o pipeline RAG (Geração Aumentada por Recuperação): recuperação, ranking, aterramento e geração de resposta.
Os testes incluem strings de injeção plantadas nos prompts do usuário e no conteúdo da base de conhecimento para validar isolamento e sanitização de saída.

O que isso significa para o cliente:

Melhora a robustez da Eddy AI contra manipulação, reduz o risco de alucinação e protege o desempenho e o custo do sistema sob condições de abuso.

Controles operacionais:

Execuções de teste adversariais agendadas antes de cada lançamento; Execuções adicionais após atualizações principais de modelos ou prompts.
Métricas acompanhadas:
- Taxa de sucesso no jailbreak
- Taxa de passagem de injeção
- Taxa de resposta no chão
- Precisão da recusa
- Alertas de latência e picos de computação
As descobertas refletem diretamente políticas de prompt, filtros de recuperadores e sanitizadores de conteúdo.

LLM Observabilidade e Avaliação de Desempenho

A Eddy AI utiliza os seguintes frameworks de avaliação para acompanhar a precisão e o desempenho:

Estrutura	Propósito
Avaliações OpenAI	Avaliar o desempenho do modelo em relação a benchmarks definidos
RAGAS	Avaliar a qualidade da recuperação e o aterramento da resposta em pipelines RAG
Métricas de GeneralQA	Meça a precisão geral das perguntas e respostas e a recordação do contexto

Com base em testes internos, o Eddy AI alcança uma taxa de precisão de 96–98% ao responder às perguntas dos usuários.

FAQ

Qual é a margem de erro esperada para respostas de IA Eddy? Como é monitorada e medida a adesão à margem de erro permitida?

Com base em nossos testes internos, o Eddy AI demonstra uma taxa de precisão de 96–98% ao responder às perguntas dos usuários. Estamos integrando ativamente ferramentas de observabilidade de LLMs e utilizando frameworks de avaliação como OpenAI Evals, RAGAS e métricas GeneralQA para avaliar desempenho e precisão em relação a benchmarks definidos.

O produto foi avaliado quanto a viés, toxicidade ou conteúdo prejudicial, como ameaças, palavrões ou polaridade política?

Sim, usamos APIs de Moderação OpenAI para avaliar respostas a conteúdos prejudiciais. Se uma resposta for sinalizada, a IA Eddy evitará gerar a resposta.

Como o risco de alucinação por IA é gerenciado no Eddy AI?

O Document360 possui uma estratégia de mitigação de riscos baseada em IA. A IA Eddy é estritamente limitada ao conteúdo da sua base de conhecimento. Os prompts do nosso sistema orientam a IA a evitar gerar respostas sem suporte ou inventadas. Se a Eddy AI estiver em dúvida ou não puder citar uma fonte confiável, ela responderá com "Não sei."

As decisões de IA são explicáveis e há supervisão humana no processo?

Sim, todas as respostas geradas por IA pela Eddy AI incluem citações em linha, permitindo que os usuários finais vejam claramente a fonte da informação e entendam como a resposta é gerada. Além disso, seguimos uma abordagem de humano no ciclo como parte da nossa governança de IA. Embora a Eddy AI possa ajudar com recomendações, as decisões finais ficam a cargo dos humanos, garantindo supervisão e responsabilidade.

Como garantir a transparência e identificar vieses? Como os modelos de IA geram respostas?

Usamos os LLMs da OpenAI e confiamos em seus scorecards e relatórios para termos transparência. Seguimos as melhores práticas de red teaming para identificar vieses e testar periodicamente a deriva do modelo. Para gerar respostas, utilizamos a abordagem de Geração Aumentada por Recuperação (RAG), onde o contexto é retirado da nossa base de conhecimento e enviado para o LLM.

Quais medidas são tomadas para garantir a confiabilidade e o desempenho dos seus modelos de IA?

Oferecemos um SLA de 99,9% de tempo de atividade e estamos trabalhando para integrar um provedor de LLM de backup. Monitoramos regularmente anomalias usando práticas de red teaming, testes de deriva de modelos e avaliações que acompanham parâmetros como precisão e recordação de contexto. Se um comportamento indesejado for detectado, investigamos a causa raiz e podemos ajustar os comandos do sistema, atualizar para um novo LLM ou sugerir mudanças de conteúdo aos clientes.

Como vocês gerenciam as atualizações dos modelos e garantem um desempenho contínuo?

Realizamos avaliações regularmente para monitorar o desempenho e o desvio do modelo. Com base nos resultados, atualizamos nossos sistemas e adotamos LLMs mais recentes para melhorar o desempenho e a precisão.

A IA Eddy é vulnerável a ataques de injeção rápida ou capaz de gerar informações fora da base de conhecimento?

A Eddy AI foi projetada com salvaguardas para mitigar ataques de injeção rápida e prevenir respostas não autorizadas ou enganosas. A plataforma valida e modera as entradas dos usuários, isola prompts das instruções do sistema e aplica controles de segurança adicionais alinhados às recomendações de segurança do OWASP LLM.

A Eddy AI segue uma abordagem de Geração Aumentada por Recuperação (RAG) e gera respostas apenas a partir do conteúdo disponível na sua base de conhecimento Document360. Se informações relevantes não estiverem disponíveis na base de conhecimento ou a IA não conseguir gerar uma resposta confiável e fundamentada, a Eddy AI responderá de acordo em vez de gerar conteúdo não suportado.

Documentation Index

Testes de segurança e defesa de IA

API de moderação

Teste de Jailbreak no estilo DAN

Testes Adversariais

LLM Observabilidade e Avaliação de Desempenho

FAQ