Pruebas de seguridad y defensa de IA

Este artículo explica cómo se prueba y defiende Eddy AI contra el mal uso, contenido dañino y ataques adversariales. Todas las pruebas descritas aquí se hacen con fines defensivos: para hacer que Eddy AI sea más segura y fiable para ti.

API de moderación

Qué es:

Un filtro de seguridad automatizado que filtra tanto las indicaciones de los usuarios entrantes como las respuestas salentes de la IA para contenido dañino — incluyendo contenido violento, sexual, odioso o relacionado con autolesiones, y otros contenidos restringidos por políticas.

Cómo lo utilizamos:

La API de Moderación se activa en cada prompt del usuario y en cada respuesta candidata.
Si el contenido es señalado, la IA de Eddy bloquea la respuesta, tacha el contenido o dirige a copias de respaldo seguras.
Todos los prompts bloqueados se registran para revisión de cumplimiento.

Qué significa esto para el cliente:

Reduce el riesgo de que aparezcan respuestas inseguras o que violen las políticas en tu base de conocimiento. Te ayuda a hacer cumplir las políticas de uso aceptable para tus usuarios finales.

Controles operativos:

Moderación previa y post-respuesta aplicada en todas las superficies interactivas.
Etiquetas de severidad aplicadas en los registros para revisión de cumplimiento.
Ajuste periódico de umbrales para equilibrar la precisión de detección con falsos positivos.

Pruebas de fuga de jailbreak al estilo DAN

Qué es:

"DAN" (Haz-Cualquier Cosa Ahora) es un tipo bien conocido de ataque de fuga de la cárcel. Intenta coaccionar a un modelo de IA para que ignore sus instrucciones, políticas o permisos — a menudo usando juegos de rol, comandos de anulación de políticas o cargas útiles de instrucciones anidadas. Usamos "DAN" como abreviatura para toda esta clase de ataques de ingeniería de prompts.

Cómo lo utilizamos:

Mantenemos un corpus de temas de jailbreak al estilo DAN y relacionados.
Estos se realizan en entornos de preparación como parte de nuestra práctica de red teaming.
Utilizamos los resultados para reforzar las indicaciones del sistema, aislar el contexto recuperado y verificar que el modelo se niega a actuar fuera de su alcance definido.

Qué significa esto para el cliente:

Las respuestas de Eddy AI se mantienen fundamentadas en el contenido legal de tu base de conocimientos. Los ataques de anulación de instrucciones están bloqueados.

Controles operativos:

Repetición regular de conjuntos de pruebas de jailbreak (incluyendo variantes DAN) antes de cada lanzamiento.
Reglas de barrera de seguridad que anulan "ignorar instrucciones anteriores" y comandos de anulación similares.
Las alertas automáticas se activan en cualquier jailbreak exitoso en preproducción — el despliegue se bloquea hasta que se resuelva el problema.

NOTA

Document360 no respalda ni habilita ningún "modo DAN". Todas las referencias a DAN son estrictamente sobre pruebas defensivas.

Pruebas adversariales

Qué es:

Intentos estructurados y sistemáticos de romper o degradar la IA de Eddy usando entradas hostiles. Esto incluye el relleno de tokens, inyecciones de prompts, contaminación del contexto, trucos unicode/codificación, ataques de logit y prompts de denegación de cartera (entradas diseñadas para agotar los recursos de cómputo).

Cómo lo utilizamos:

Las pruebas adversariales continuas se ejecutan a lo largo de toda la cadena RAG (Generación Aumentada por Recuperación): recuperación, clasificación, conexión a tierra y generación de respuesta.
Las pruebas incluyen cadenas de inyección plantadas en los prompts del usuario y en el contenido de la base de conocimiento para validar el aislamiento y la sanitización de salida.

Qué significa esto para el cliente:

Mejora la robustez de Eddy AI frente a la manipulación, reduce el riesgo de alucinaciones y protege el rendimiento y coste del sistema bajo condiciones de abuso.

Controles operativos:

Pruebas antagonistas programadas antes de cada lanzamiento; Ejecuciones adicionales tras actualizaciones de modelos principales o prompts.
Métricas rastreadas:
- Tasa de éxito en la fuga
- Tasa de paso de inyección
- Tasa de respuesta en tierra
- Precisión de la negativa
- Alertas de latencia y picos de cómputo
Los hallazgos retroalimentan directamente las políticas de prompt, los filtros de recuperación y los desinfectantes de contenido.

LLM Observabilidad y Evaluación del Rendimiento

Eddy AI utiliza los siguientes marcos de evaluación para monitorizar la precisión y el rendimiento:

Marco	Propósito
Evaluaciones de OpenAI	Evaluar el rendimiento del modelo frente a los benchmarks definidos
RAGAS	Evalúa la calidad de la recuperación y la puesta a tierra de respuestas en las tuberías RAG
Métricas GeneralQA	Mide la precisión general de las preguntas y respuestas y la memoria del contexto

Según pruebas internas, Eddy AI logra una precisión del 96–98% al responder a las consultas de los usuarios.

Preguntas frecuentes

¿Cuál es el margen de error esperado para las respuestas de Eddy AI? ¿Cómo se monitoriza y mide la adhesión al margen de error permitido?

Según nuestras pruebas internas, Eddy AI demuestra una tasa de precisión del 96–98% al responder a consultas de los usuarios. Estamos integrando activamente herramientas de observabilidad de LLM y utilizamos marcos de evaluación como OpenAI Evals, RAGAS y métricas GeneralQA para evaluar el rendimiento y la precisión frente a benchmarks definidos.

¿Se ha evaluado el producto por sesgo, toxicidad o contenido dañino como amenazas, palabrotas o polaridad política?

Sí, usamos las APIs de moderación de OpenAI para evaluar respuestas a contenido dañino. Si una respuesta es marcada, Eddy AI evitará generar la respuesta.

¿Cómo se gestiona el riesgo de alucinaciones por IA en Eddy AI?

Document360 tiene una estrategia de mitigación de riesgos basada en IA. Eddy AI está estrictamente limitado al contenido de tu base de conocimientos. Las indicaciones de nuestro sistema guían a la IA para evitar generar respuestas sin soporte o inventadas. Si Eddy AI no está seguro o no puede citar una fuente fiable, responderá con "No lo sé."

¿Son explicables las decisiones de la IA y hay supervisión humana en el proceso?

Sí, todas las respuestas generadas por IA desde Eddy AI incluyen citas en línea, permitiendo a los usuarios finales ver claramente la fuente de la información y entender cómo se genera la respuesta. Además, seguimos un enfoque de intervención humana como parte de nuestra gobernanza de la IA. Aunque Eddy AI puede ayudar con las recomendaciones, las decisiones finales se dejan a las personas, garantizando supervisión y rendición de cuentas.

¿Cómo garantizas la transparencia e identificas los sesgos? ¿Cómo generan los modelos de IA respuestas?

Utilizamos los LLMs de OpenAI y confiamos en sus hojas de puntuación e informes para la transparencia. Seguimos las mejores prácticas de red teaming para identificar sesgos y probar periódicamente la deriva del modelo. Para generar respuestas, utilizamos un enfoque de Generación Aumentada por Recuperación (RAG), donde el contexto se recupera de nuestra base de conocimiento y se envía al LLM.

¿Qué medidas se toman para garantizar la fiabilidad y el rendimiento de vuestros modelos de IA?

Ofrecemos un SLA de disponibilidad del 99,9% y estamos trabajando en la integración de un proveedor de LLM de respaldo. Monitorizamos regularmente anomalías utilizando prácticas de red teaming, pruebas de deriva de modelos y evaluaciones que rastrean parámetros como la precisión y la memoria del contexto. Si se detecta un comportamiento indeseable, investigamos la causa raíz y podemos ajustar las indicaciones del sistema, actualizar a un nuevo LLM o sugerir cambios de contenido a los clientes.

¿Cómo gestionáis las actualizaciones de modelos y aseguráis un rendimiento continuo?

Realizamos evaluaciones regularmente para monitorizar el rendimiento y la deriva del modelo. Basándonos en los resultados, actualizamos nuestros sistemas y adoptamos LLMs más recientes para mejorar el rendimiento y la precisión.

¿Es Eddy AI vulnerable a ataques de inyección prompt o capaz de generar información fuera de la base de conocimiento?

Eddy AI está diseñado con salvaguardas para mitigar ataques de inyección rápida y prevenir respuestas no autorizadas o engañosas. La plataforma valida y modera las entradas de los usuarios, aísla las indicaciones de las instrucciones del sistema y aplica controles de seguridad adicionales alineados con las recomendaciones de seguridad del OWASP LLM.

Eddy AI sigue un enfoque de Generación Aumentada por Recuperación (RAG) y genera respuestas únicamente a partir del contenido disponible en tu base de conocimiento Document360. Si la información relevante no está disponible en la base de conocimientos o la IA no puede generar una respuesta fiable y fundamentada, Eddy AI responderá en consecuencia en lugar de generar contenido no soportado.

Documentation Index

Pruebas de seguridad y defensa de IA

API de moderación

Pruebas de fuga de jailbreak al estilo DAN

Pruebas adversariales

LLM Observabilidad y Evaluación del Rendimiento

Preguntas frecuentes