Tests de sécurité et défense de l’IA

Cet article explique comment Eddy AI est testée et défendue contre les abus, les contenus nuisibles et les attaques adverses. Tous les tests décrits ici sont réalisés à des fins défensives – pour rendre Eddy AI plus sûr et plus fiable pour vous.

API de modération

Ce que c’est :

Un filtre de sécurité automatisé qui filtre à la fois les demandes des utilisateurs entrantes et les réponses générées par l’IA pour les contenus nuisibles — y compris les contenus violents, sexuels, haineux ou liés à l’automutilation, ainsi que tout autre contenu soumis à des restrictions de politique.

Comment nous l’utilisons :

L’API de modération est appelée sur chaque invite utilisateur et chaque réponse candidate à chaque candidat.
Si le contenu est signalé, Eddy AI bloque la réponse, expurge le contenu ou permet d’accéder à des copies de secours sûres.
Toutes les invites bloquées sont enregistrées pour la vérification de la conformité.

Ce que cela signifie pour le client :

Cela réduit le risque que des réponses dangereuses ou enfreignant les règles apparaissent dans votre base de connaissances. Cela vous aide à faire respecter les politiques d’utilisation acceptable pour vos utilisateurs finaux.

Contrôles opérationnels :

La modération avant la demande et la réponse est appliquée sur toutes les surfaces interactives.
Les balises de sévérité appliquées dans les journaux pour la revue de conformité.
Réglage périodique du seuil pour équilibrer la précision de la détection avec les faux positifs.

Tests de Jailbreak de type DAN

Ce que c’est :

« DAN » (Faire n’importe quoi-maintenant) est un type bien connu d’attaque d’évasion de prison. Il tente de contraindre un modèle d’IA à ignorer ses instructions, ses politiques ou ses permissions — souvent en utilisant des jeux de rôle, des commandes de dérogation de politique ou des charges utiles d’instructions imbriquées. Nous utilisons « DAN » comme raccourci pour toute cette classe d’attaques d’ingénierie de prompts.

Comment nous l’utilisons :

Nous maintenons un corpus de sujets de jailbreak de style DAN et associés.
Ces actions sont effectuées dans des environnements de staging dans le cadre de notre entraînement de red teaming.
Nous utilisons les résultats pour renforcer les prompts système, isoler le contexte récupéré et vérifier que le modèle refuse d’agir en dehors de son champ défini.

Ce que cela signifie pour le client :

Les réponses d’Eddy AI restent ancrées dans le contenu de votre base de connaissances légale. Les attaques de dérogation d’instructions sont bloquées.

Contrôles opérationnels :

Rediffusion régulière des séries de tests jailbreak (y compris les variantes DAN) avant chaque sortie.
Règles de garde-corps qui annulent « ignorer les instructions précédentes » et des commandes de dérogation similaires.
Les alertes automatisées déclenchées lors de tout jailbreak réussi en pré-production — le déploiement est bloqué jusqu’à ce que le problème soit résolu.

NOTE

Document360 n’approuve ni n’active aucun « mode DAN ». Toutes les références au DAN concernent strictement les tests défensifs.

Essais adversariaux

Ce que c’est :

Des tentatives structurées et systématiques pour briser ou dégrader l’IA Eddy en utilisant des entrées hostiles. Cela inclut le remplissage de jetons, les injections de prompts, la contamination du contexte, les astuces unicode/encodage, les attaques de logit et les invites de refus de portefeuille (entrées conçues pour épuiser les ressources de calcul).

Comment nous l’utilisons :

Des tests adversaires continus s’exécutent sur l’ensemble du pipeline RAG (Génération Augmentée par Récupération) : récupération, classement, mise à la terre et génération de réponse.
Les tests incluent des chaînes d’injection implantées dans les invites utilisateur et dans le contenu de la base de connaissances pour valider l’isolation et la salubrisation des résultats.

Ce que cela signifie pour le client :

Améliore la robustesse d’Eddy AI face à la manipulation, réduit le risque d’hallucinations et protège la performance et le coût du système en cas d’abus.

Contrôles opérationnels :

Des essais adversaires programmés avant chaque version ; Des runs supplémentaires après des mises à jour majeures du modèle ou des invités.
Indicateurs suivis :
- Taux de réussite de l’évasion
- Taux de passage par injection
- Taux de réponse au sol
- Exactitude du refus
- Alertes de latence et de pics de calcul
Les résultats se réinjectent directement dans les politiques de prompt, les filtres de récupérateur et les désinfectants de contenu.

LLM Observabilité et Évaluation de la Performance

Eddy AI utilise les cadres d’évaluation suivants pour suivre la précision et la performance :

Cadre	Objectif
Évaluations OpenAI	Évaluer la performance du modèle par rapport aux benchmarks définis
RAGAS	Évaluer la qualité de la récupération et la mise à la terre des réponses dans les pipelines RAG
Indicateurs GeneralQA	Mesurer la précision générale des questions-réponses et la mémoire du contexte

D’après des tests internes, Eddy AI atteint un taux de précision de 96 à 98 % lors de la réponse aux questions des utilisateurs.

FAQ

Quelle est la marge d’erreur attendue pour les réponses d’Eddy AI ? Comment est-il surveillé et mesuré le respect de la marge d’erreur autorisée ?

D’après nos tests internes, Eddy AI affiche un taux de précision de 96 à 98 % lors de la réponse aux requêtes des utilisateurs. Nous intégrons activement des outils d’observabilité LLM et utilisons des cadres d’évaluation tels que OpenAI Evals, RAGAS et GeneralQA pour évaluer la performance et la précision par rapport aux benchmarks définis.

Le produit a-t-il été évalué pour détecter des biais, une toxicité ou un contenu nuisible tel que des menaces, des jurons ou une polarité politique ?

Oui, nous utilisons les API de modération OpenAI pour évaluer les réponses aux contenus nuisibles. Si une réponse est signalée, Eddy AI évitera soit de générer la réponse.

Comment le risque d’hallucination par IA est-il géré dans Eddy AI ?

Document360 propose une stratégie d’atténuation des risques basée sur l’IA. Eddy AI est strictement limitée au contenu de votre base de connaissances. Nos instructions système guident l’IA pour éviter de générer des réponses non supportées ou inventées. Si Eddy AI n’est pas sûr ou ne peut pas citer une source fiable, il répondra par « Je ne sais pas. »

Les décisions prises par l’IA sont-elles expliquables, et y a-t-il une supervision humaine dans le processus ?

Oui, toutes les réponses générées par l’IA par Eddy AI incluent des citations en ligne, permettant aux utilisateurs finaux de voir clairement la source de l’information et de comprendre comment la réponse est générée. De plus, nous adoptons une approche « humain dans la boucle » dans le cadre de notre gouvernance de l’IA. Bien qu’Eddy AI puisse aider avec des recommandations, les décisions finales sont laissées aux humains, garantissant la supervision et la responsabilité.

Comment garantir la transparence et identifier les biais ? Comment les modèles d’IA génèrent-ils des réponses ?

Nous utilisons les LLM d’OpenAI et nous appuyons sur leurs feuilles de bord et rapports pour la transparence. Nous suivons les meilleures pratiques de red teaming pour identifier les biais et tester périodiquement la dérive du modèle. Pour générer des réponses, nous utilisons une approche de génération augmentée par récupération (RAG), où le contexte est extrait de notre base de connaissances et envoyé au LLM.

Quelles mesures sont prises pour garantir la fiabilité et les performances de vos modèles d’IA ?

Nous proposons un SLA de 99,9 % de disponibilité et travaillons à l’intégration d’un fournisseur de LLM de secours. Nous surveillons régulièrement les anomalies en utilisant des pratiques de red teaming, des tests de dérive de modèles, et des évaluations qui suivent des paramètres comme la précision et la mémoire du contexte. Si un comportement indésirable est détecté, nous enquêtons sur la cause profonde et pouvons ajuster les indications système, passer à un nouveau LLM ou suggérer des modifications de contenu aux clients.

Comment gérez-vous les mises à jour des modèles et assurez-vous des performances continues ?

Nous réalisons régulièrement des évaluations pour surveiller les performances et la dérive du modèle. Sur la base des résultats, nous mettons à jour nos systèmes et adoptons des LLM plus récents pour améliorer les performances et la précision.

L’IA Eddy est-elle vulnérable aux attaques par injection prompte ou capable de générer des informations en dehors de la base de connaissances ?

Eddy AI est conçue avec des mesures de protection pour atténuer les attaques par injection rapide et prévenir les réponses non autorisées ou trompeuses. La plateforme valide et modère les entrées des utilisateurs, isole les indications des instructions système et applique des contrôles de sécurité supplémentaires alignés sur les recommandations de sécurité des LLM OWASP.

Eddy AI suit une approche de génération augmentée par la récupération (RAG) et génère des réponses uniquement à partir du contenu disponible dans votre base de connaissances Document360. Si les informations pertinentes ne sont pas disponibles dans la base de connaissances ou si l’IA ne peut pas générer une réponse fiable et ancrée, Eddy AI répondra en conséquence au lieu de générer du contenu non supporté.

Documentation Index

Tests de sécurité et défense de l’IA

API de modération

Tests de Jailbreak de type DAN

Essais adversariaux

LLM Observabilité et Évaluation de la Performance

FAQ