KI-Sicherheitstests und Verteidigung

Dieser Artikel erklärt, wie Eddy-KI getestet und gegen Missbrauch, schädliche Inhalte und gegnerische Angriffe geschützt wird. Alle hier beschriebenen Tests werden zu defensiven Zwecken durchgeführt – um die Eddy-KI für dich sicherer und zuverlässiger zu machen.

API

Was es ist:

Ein automatisierter Sicherheitsfilter, der sowohl eingehende Nutzerhinweise als auch ausgehende KI-Antworten auf schädliche Inhalte – einschließlich gewalttätiger, sexueller, hasserfüllter oder selbstverletzter Inhalte sowie anderer richtlinienbeschränkter Inhalte – überprüft.

Wie wir es nutzen:

Die Moderations-API wird bei jedem Benutzerprompt und jeder Kandidatenantwort aufgerufen.
Wenn Inhalte markiert werden, blockiert die Eddy-KI die Antwort, schwärzt den Inhalt oder leitet zu einer sicheren Fallback-Kopie.
Alle blockierten Prompts werden zur Compliance-Überprüfung protokolliert.

Was das für den Kunden bedeutet:

Verringert das Risiko, dass unsichere oder richtlinienverstoßende Reaktionen in Ihrer Wissensdatenbank auftauchen. Hilft Ihnen, Akzeptable Nutzungsrichtlinien für Ihre Endnutzer durchzusetzen.

Operative Kontrollen:

Moderation vor und nach der Antwort wurde auf allen interaktiven Oberflächen angewendet.
Schweregrads-Tags werden in den Protokollen zur Compliance-Überprüfung angewendet.
Periodische Schwellenabstimmung, um die Erkennungsgenauigkeit gegen Fehlalarme auszugleichen.

DAN-ähnliche Jailbreak-Tests

Was es ist:

"DAN" (Do-Anything-Now) ist eine bekannte Art von Gefängnisausbruch. Es versucht, ein KI-Modell dazu zu zwingen, seine Anweisungen, Richtlinien oder Berechtigungen zu ignorieren – oft durch Rollenspiel, Richtlinienüberschreibungsbefehle oder verschachtelte Befehlsnutzlasten. Wir verwenden "DAN" als Kurzform für diese gesamte Klasse von Prompt-Engineering-Angriffen.

Wie wir es nutzen:

Wir pflegen einen Korpus von DAN-ähnlichen und verwandten Jailbreak-Prompts.
Diese werden gegen Staging Environments als Teil unserer Red-Teaming-Praxis durchgeführt.
Wir nutzen die Ergebnisse, um Systemeingaben zu verhärten, den abgerufenen Kontext zu isolieren und zu überprüfen, ob das Modell sich weigert, außerhalb seines definierten Bereichs zu handeln.

Was das für den Kunden bedeutet:

Die Antworten von Eddy AI bleiben im Inhalt Ihrer autorisierten Datenbank verankert. Angriffe der Instruktionsübersteuerung werden blockiert.

Operative Kontrollen:

Regelmäßige Wiederholung der Jailbreak-Testsets (einschließlich DAN-Varianten) vor jeder Veröffentlichung.
Leitplankenregeln, die "ignorieren Sie vorherige Anweisungen" und ähnliche Übersteuerungsbefehle aufheben.
Automatisierte Warnungen, die bei jedem erfolgreichen Jailbreak in der Vorproduktion ausgelöst werden – die Bereitstellung wird blockiert, bis das Problem behoben ist.

HINWEIS

Document360 unterstützt oder aktiviert keinen "DAN-Modus". Alle Hinweise auf DAN beziehen sich ausschließlich auf defensive Tests.

Adversariale Tests

Was es ist:

Strukturierte, systematische Versuche, Eddy-KI durch feindliche Eingaben zu brechen oder zu zerstören. Dazu gehören Token-Stuffing, Prompt-Injektionen, Kontextkontamination, Unicode-/Codierungstricks, Logit-Angriffe und Denial-of-Wallet-Prompts (Eingaben, die darauf ausgelegt sind, Rechenressourcen zu erschöpfen).

Wie wir es nutzen:

Kontinuierliche adversariale Tests laufen über die gesamte RAG (Retrieval-Augmented Generation)-Pipeline: Abruf, Rangfolge, Erdung und Antwortgenerierung.
Tests beinhalten Injektionsstrings, die in Benutzereingaben und in Inhalten der Wissensdatenbank eingeplant werden, um Isolation und Output-Sanitization zu validieren.

Was das für den Kunden bedeutet:

Verbessert die Robustheit der Eddy-KI gegen Manipulationen, reduziert das Halluzinationsrisiko und schützt die Systemleistung sowie -kosten unter Missbrauchsbedingungen.

Operative Kontrollen:

Planmäßige Adversarial-Testläufe vor jeder Veröffentlichung; zusätzliche Läufe nach größeren Modell- oder Prompt-Updates.
Erfasste Kennzahlen:
- Erfolgsquote bei Gefängnisausbrüchen
- Injektionsdurchlaufrate
- Geerdete Antwortrate
- Genauigkeit der Ablehnung
- Latenz- und Rechenspitzenwarnungen
Die Ergebnisse fließen direkt in Prompt-Richtlinien, Retriever-Filter und Inhaltsdesinfektionsmittel zurück.

LLM-Observabilität und Leistungsbewertung

Eddy AI verwendet folgende Bewertungsrahmen, um Genauigkeit und Leistung zu verfolgen:

Rahmenwerk	Zweck
OpenAI-Bewertungen	Bewertung der Modellleistung anhand definierter Benchmarks
RAGAS	Bewertung der Abrufqualität und Beantwortung in RAG-Pipelines
GeneralQA-Metriken	Messung der allgemeinen Frage-Antwort-Genauigkeit und des Kontext-Erinnerns

Basierend auf internen Tests erreicht Eddy AI eine Genauigkeitsrate von 96–98 % bei der Beantwortung von Nutzeranfragen.

FAQ

Wie hoch ist die erwartete Fehlermarge für Eddy-AI-Antworten? Wie wird die Einhaltung der zulässigen Fehlermarge überwacht und gemessen?

Basierend auf unserem internen Test zeigt Eddy AI eine Genauigkeitsrate von 96–98 % bei der Beantwortung von Nutzeranfragen. Wir integrieren aktiv LLM-Observabilitätstools und nutzen Bewertungsrahmen wie OpenAI Evals, RAGAS und GeneralQA-Kennzahlen, um Leistung und Genauigkeit anhand definierter Benchmarks zu bewerten.

Wurde das Produkt auf Verzerrung, Toxizität oder schädliche Inhalte wie Drohungen, Flüche oder politische Polarität bewertet?

Ja, wir nutzen OpenAI-Moderations-APIs, um Antworten auf schädliche Inhalte zu bewerten. Wenn eine Antwort markiert wird, vermeidet die Eddy-KI entweder die Antwort zu generieren.

Wie wird das Risiko von KI-Halluzinationen in Eddy AI gehandhabt?

Document360 verfolgt eine KI-Risikominderungsstrategie. Die Eddy-KI ist strikt auf den Inhalt deiner Wissensbasis beschränkt. Unsere Systemhinweise leiten die KI dazu, unbelegte oder erfundene Antworten zu vermeiden. Wenn Eddy AI unsicher ist oder keine verlässliche Quelle zitieren kann, antwortet sie mit "Ich weiß es nicht."

Sind KI-Entscheidungen erklärbar, und gibt es dabei menschliche Kontrolle?

Ja, alle KI-generierten Antworten von Eddy AI enthalten Inline-Zitate, sodass Endnutzer die Quelle der Informationen klar sehen und verstehen können, wie die Antwort erzeugt wird. Außerdem verfolgen wir einen Human-in-the-Loop-Ansatz als Teil unserer KI-Governance. Während Eddy AI bei Empfehlungen helfen kann, bleiben die endgültigen Entscheidungen den Menschen überlassen, was Aufsicht und Verantwortlichkeit gewährleistet.

Wie sorgen Sie für Transparenz und erkennen Vorurteile? Wie erzeugen die KI-Modelle Antworten?

Wir nutzen die LLMs von OpenAI und verlassen uns auf deren Scorecards und Berichte für Transparenz. Wir folgen Best Practices im Red-Teaming, um Verzerrungen zu identifizieren und regelmäßig auf Modellabweichungen zu testen. Zur Generierung von Antworten verwenden wir einen Retrieval Augmented Generation (RAG)-Ansatz, bei dem Kontext aus unserer Wissensdatenbank abgerufen und an das LLM gesendet wird.

Welche Schritte werden unternommen, um die Zuverlässigkeit und Leistung Ihrer KI-Modelle sicherzustellen?

Wir bieten eine 99,9 % Verfügbarkeitszeit-SLA an und arbeiten daran, einen Backup-LLM-Anbieter zu integrieren. Wir überwachen regelmäßig Anomalien durch Red-Teaming-Praktiken, Modell-Drift-Tests und Bewertungen, die Parameter wie Genauigkeit und Kontextabruf verfolgen. Wenn unerwünschtes Verhalten festgestellt wird, untersuchen wir die Ursache und können Systemhinweise anpassen, auf ein neues LLM upgraden oder den Kunden Inhaltsänderungen vorschlagen.

Wie verwalten Sie Modellupdates und stellen eine kontinuierliche Leistung sicher?

Wir führen regelmäßig Bewertungen durch, um Leistung und Modelldrift zu überwachen. Basierend auf den Ergebnissen aktualisieren wir unsere Systeme und übernehmen neuere LLMs, um Leistung und Genauigkeit zu verbessern.

Ist die Eddy-KI anfällig für Prompt-Injection-Angriffe oder in der Lage, Informationen außerhalb der Wissensdatenbank zu generieren?

Eddy AI ist mit Schutzmaßnahmen ausgestattet, um Prompt-Injection-Angriffe zu verhindern und unautorisierte oder irreführende Reaktionen zu verhindern. Die Plattform validiert und moderiert Benutzereingaben, isoliert Eingabeaufforderungen von Systemanweisungen und wendet zusätzliche Sicherheitskontrollen an, die mit den Sicherheitsempfehlungen von OWASP LLM übereinstimmen.

Eddy AI verfolgt einen Retrieval-Augmented Generation (RAG)-Ansatz und generiert Antworten ausschließlich aus den Inhalten Ihrer Document360-Wissensdatenbank. Wenn relevante Informationen in der Wissensdatenbank nicht verfügbar sind oder die KI keine zuverlässige, geerdete Antwort liefern kann, reagiert die Eddy-KI entsprechend, anstatt nicht gestützte Inhalte zu generieren.

Documentation Index

KI-Sicherheitstests und Verteidigung

API

DAN-ähnliche Jailbreak-Tests

Adversariale Tests

LLM-Observabilität und Leistungsbewertung

FAQ