Este artigo explica como a Eddy AI é testada e defendida contra uso indevido, conteúdo prejudicial e ataques adversariais. Todos os testes descritos aqui são feitos com fins defensivos – para tornar a IA do Eddy mais segura e confiável para você.
API de moderação
O que é:
Um filtro de segurança automatizado que filtra tanto os prompts dos usuários recebidos quanto as respostas de IA que saem para conteúdo prejudicial — incluindo conteúdo violento, sexual, odioso ou relacionado a automutilação, e outros materiais restritos por políticas.
Como usamos:
- A API de Moderação é acionada em cada prompt do usuário e em cada resposta candidata.
- Se o conteúdo for sinalizado, a IA do Eddy bloqueia a resposta, redige o conteúdo ou direciona para cópias de reserva seguras.
- Todos os prompts bloqueados são registrados para revisão de conformidade.
O que isso significa para o cliente:
Reduz o risco de respostas inseguras ou que violam políticas aparecerem na sua base de conhecimento. Ajuda você a aplicar políticas de uso aceitável para seus usuários finais.
Controles operacionais:
- Moderação pré-prompt e pós-resposta aplicada em todas as superfícies interativas.
- Etiquetas de severidade aplicadas nos registros para revisão de conformidade.
- Ajuste periódico de limiar para equilibrar a precisão da detecção contra falsos positivos.
Teste de Jailbreak no estilo DAN
O que é:
"DAN" (Faça Qualquer Coisa) é um tipo bem conhecido de ataque de fuga de jailbreak. Ele tenta coagir um modelo de IA a ignorar suas instruções, políticas ou permissões — frequentemente usando role-play, comandos de substituição de políticas ou cargas úteis de instruções aninhadas. Usamos "DAN" como abreviação para toda essa classe de ataques de engenharia de prompts.
Como usamos:
- Mantemos um corpus de prompts de jailbreak no estilo DAN e relacionados.
- Essas operações são realizadas contra ambientes de staging como parte da nossa prática de red teaming.
- Usamos os resultados para reforçar os prompts do sistema, isolar o contexto recuperado e verificar se o modelo se recusa a agir fora de seu escopo definido.
O que isso significa para o cliente:
As respostas da Eddy AI permanecem fundamentadas no conteúdo da sua base de dados autorizada. Ataques de substituição de instruções são bloqueados.
Controles operacionais:
- Replay regular de conjuntos de teste de jailbreak (incluindo variantes DAN) antes de cada lançamento.
- Regras de proteção que anulam "ignorar instruções anteriores" e comandos de sobreposição similares.
- Alertas automáticos acionados em qualquer jailbreak bem-sucedido na pré-produção — a implantação é bloqueada até que o problema seja resolvido.
O Document360 não endossa nem habilita nenhum "modo DAN". Todas as referências ao DAN são estritamente sobre testes defensivos.
Testes Adversariais
O que é:
Tentativas estruturadas e sistemáticas de quebrar ou degradar a IA do Eddy usando entradas hostis. Isso inclui enchimento de tokens, injeções de prompts, contaminação de contexto, truques unicode/codificação, ataques de logit e prompts de negação de carteira (entradas projetadas para esgotar recursos de computação).
Como usamos:
- Testes adversariais contínuos são executados em todo o pipeline RAG (Geração Aumentada por Recuperação): recuperação, ranking, aterramento e geração de resposta.
- Os testes incluem strings de injeção plantadas nos prompts do usuário e no conteúdo da base de conhecimento para validar isolamento e sanitização de saída.
O que isso significa para o cliente:
Melhora a robustez da Eddy AI contra manipulação, reduz o risco de alucinação e protege o desempenho e o custo do sistema sob condições de abuso.
Controles operacionais:
- Execuções de teste adversariais agendadas antes de cada lançamento; Execuções adicionais após atualizações principais de modelos ou prompts.
- Métricas acompanhadas:
- Taxa de sucesso no jailbreak
- Taxa de passagem de injeção
- Taxa de resposta no chão
- Precisão da recusa
- Alertas de latência e picos de computação
- As descobertas refletem diretamente políticas de prompt, filtros de recuperadores e sanitizadores de conteúdo.
LLM Observabilidade e Avaliação de Desempenho
A Eddy AI utiliza os seguintes frameworks de avaliação para acompanhar a precisão e o desempenho:
| Estrutura | Propósito |
|---|---|
| Avaliações OpenAI | Avaliar o desempenho do modelo em relação a benchmarks definidos |
| RAGAS | Avaliar a qualidade da recuperação e o aterramento da resposta em pipelines RAG |
| Métricas de GeneralQA | Meça a precisão geral das perguntas e respostas e a recordação do contexto |
Com base em testes internos, o Eddy AI alcança uma taxa de precisão de 96–98% ao responder às perguntas dos usuários.
FAQ
Qual é a margem de erro esperada para respostas de IA Eddy? Como é monitorada e medida a adesão à margem de erro permitida?
Com base em nossos testes internos, o Eddy AI demonstra uma taxa de precisão de 96–98% ao responder às perguntas dos usuários. Estamos integrando ativamente ferramentas de observabilidade de LLMs e utilizando frameworks de avaliação como OpenAI Evals, RAGAS e métricas GeneralQA para avaliar desempenho e precisão em relação a benchmarks definidos.
O produto foi avaliado quanto a viés, toxicidade ou conteúdo prejudicial, como ameaças, palavrões ou polaridade política?
Sim, usamos APIs de Moderação OpenAI para avaliar respostas a conteúdos prejudiciais. Se uma resposta for sinalizada, a IA Eddy evitará gerar a resposta.
Como o risco de alucinação por IA é gerenciado no Eddy AI?
O Document360 possui uma estratégia de mitigação de riscos baseada em IA. A IA Eddy é estritamente limitada ao conteúdo da sua base de conhecimento. Os prompts do nosso sistema orientam a IA a evitar gerar respostas sem suporte ou inventadas. Se a Eddy AI estiver em dúvida ou não puder citar uma fonte confiável, ela responderá com "Não sei."
As decisões de IA são explicáveis e há supervisão humana no processo?
Sim, todas as respostas geradas por IA pela Eddy AI incluem citações em linha, permitindo que os usuários finais vejam claramente a fonte da informação e entendam como a resposta é gerada. Além disso, seguimos uma abordagem de humano no ciclo como parte da nossa governança de IA. Embora a Eddy AI possa ajudar com recomendações, as decisões finais ficam a cargo dos humanos, garantindo supervisão e responsabilidade.
Como garantir a transparência e identificar vieses? Como os modelos de IA geram respostas?
Usamos os LLMs da OpenAI e confiamos em seus scorecards e relatórios para termos transparência. Seguimos as melhores práticas de red teaming para identificar vieses e testar periodicamente a deriva do modelo. Para gerar respostas, utilizamos a abordagem de Geração Aumentada por Recuperação (RAG), onde o contexto é retirado da nossa base de conhecimento e enviado para o LLM.
Quais medidas são tomadas para garantir a confiabilidade e o desempenho dos seus modelos de IA?
Oferecemos um SLA de 99,9% de tempo de atividade e estamos trabalhando para integrar um provedor de LLM de backup. Monitoramos regularmente anomalias usando práticas de red teaming, testes de deriva de modelos e avaliações que acompanham parâmetros como precisão e recordação de contexto. Se um comportamento indesejado for detectado, investigamos a causa raiz e podemos ajustar os comandos do sistema, atualizar para um novo LLM ou sugerir mudanças de conteúdo aos clientes.
Como vocês gerenciam as atualizações dos modelos e garantem um desempenho contínuo?
Realizamos avaliações regularmente para monitorar o desempenho e o desvio do modelo. Com base nos resultados, atualizamos nossos sistemas e adotamos LLMs mais recentes para melhorar o desempenho e a precisão.
A IA Eddy é vulnerável a ataques de injeção rápida ou capaz de gerar informações fora da base de conhecimento?
A Eddy AI foi projetada com salvaguardas para mitigar ataques de injeção rápida e prevenir respostas não autorizadas ou enganosas. A plataforma valida e modera as entradas dos usuários, isola prompts das instruções do sistema e aplica controles de segurança adicionais alinhados às recomendações de segurança do OWASP LLM.
A Eddy AI segue uma abordagem de Geração Aumentada por Recuperação (RAG) e gera respostas apenas a partir do conteúdo disponível na sua base de conhecimento Document360. Se informações relevantes não estiverem disponíveis na base de conhecimento ou a IA não conseguir gerar uma resposta confiável e fundamentada, a Eddy AI responderá de acordo em vez de gerar conteúdo não suportado.