AI-veiligheidstesten en verdediging

Dit artikel legt uit hoe Eddy AI wordt getest en beschermd tegen misbruik, schadelijke inhoud en vijandige aanvallen. Alle hier beschreven tests worden gedaan voor defensieve doeleinden - om Eddy AI veiliger en betrouwbaarder voor jou te maken.

API

Wat het is:

Een geautomatiseerd veiligheidsfilter dat zowel inkomende gebruikersprompts als uitgaande AI-reacties screent op schadelijke inhoud — waaronder gewelddadige, seksuele, haatdragende of zelfbeschadigingsgerelateerde inhoud, en ander door beleid begrensd materiaal.

Hoe we het gebruiken:

De Moderation API wordt aangeroepen bij elke gebruikersprompt en elke kandidaatreactie.
Als content wordt gemarkeerd, blokkeert Eddy AI de reactie, redigeert de inhoud of leidt naar een veilige fallback-kopie.
Alle geblokkeerde prompts worden gelogd voor compliance-beoordeling.

Wat dit betekent voor de klant:

Vermindert het risico op onveilige of beleidsovertredende reacties in je kennisbank. Helpt u acceptabele gebruiksbeleid voor uw eindgebruikers af te dwingen.

Operationele controles:

Pre-prompt en post-response moderatie wordt toegepast op alle interactieve oppervlakken.
Ernstheidstags toegepast in logs voor nalevingscontrole.
Periodieke drempelafstemming om detectienauwkeurigheid te balanceren tegen vals-positieven.

DAN-stijl Jailbreak-testen

Wat het is:

"DAN" (Doe-Alles-Nu) is een bekend type jailbreak-aanval. Het probeert een AI-model te dwingen zijn instructies, beleidsregels of permissies te negeren — vaak met behulp van rollenspel, beleidsoverride-commando's of geneste instructiepayloads. We gebruiken "DAN" als afkorting voor deze hele klasse van prompt-engineering aanvallen.

Hoe we het gebruiken:

We onderhouden een corpus van DAN-achtige en gerelateerde jailbreak-prompts.
Deze worden uitgevoerd tegen staging-omgevingen als onderdeel van onze red teaming-praktijk.
We gebruiken de resultaten om systeemprompts te versterken, de opgehaalde context te isoleren en te verifiëren dat het model weigert buiten zijn gedefinieerde scope te handelen.

Wat dit betekent voor de klant:

De antwoorden van Eddy AI blijven geworteld in de inhoud van je geautoriseerde kennisbasis. Instructie-override-aanvallen worden geblokkeerd.

Operationele controles:

Regelmatige herhaling van jailbreak-testsets (inclusief DAN-varianten) vóór elke release.
Regels voor de vangrail die "negeer eerdere instructies" en soortgelijke override-commando's neutraliseren.
Geautomatiseerde waarschuwingen die worden geactiveerd bij elke succesvolle jailbreak in de pre-productie — de implementatie wordt geblokkeerd totdat het probleem is opgelost.

OPMERKING

Document360 ondersteunt of schakelt geen enkele "DAN-modus" in. Alle verwijzingen naar DAN gaan strikt over defensieve tests.

Adversariële Testen

Wat het is:

Gestructureerde, systematische pogingen om Eddy AI te breken of te degraderen met vijandige inputs. Dit omvat token stuffing, prompt-injecties, contextcontaminatie, unicode-/encode-trucs, logit-aanvallen en denial-of-wallet prompts (inputs die bedoeld zijn om rekenkrachten uit te putten).

Hoe we het gebruiken:

Continue adversariële tests worden uitgevoerd in de volledige RAG (Retrieval-Augmented Generation) pijplijn: ophalen, rangschikken, aarden en responsgeneratie.
Tests omvatten injectiestrings die in gebruikersprompts en in kennisbankinhoud zijn geplaatst om isolatie en output-sanitisatie te valideren.

Wat dit betekent voor de klant:

Verbetert de robuustheid van Eddy AI tegen manipulatie, vermindert hallucinatierisico en beschermt systeemprestaties en kosten onder misbruikomstandigheden.

Operationele controles:

Geplande adversariale testruns vóór elke release; extra runs na grote model- of promptupdates.
Bijgehouden meetwaarden:
- Slagingspercentage van jailbreak
- Injectie-doorlaatsnelheid
- Percentage gegronde antwoorden
- Weigeringsnauwkeurigheid
- Waarschuwingen voor latency en rekenpieken
Bevindingen leiden direct terug naar promptbeleid, retrieverfilters en contentreinigers.

LLM Observabiliteit en Prestatie-evaluatie

Eddy AI gebruikt de volgende evaluatiekaders om nauwkeurigheid en prestaties te volgen:

Raamwerk	Doel
OpenAI Evaluaties	Evalueer modelprestaties aan de hand van gedefinieerde benchmarks
RAGAS	Beoordeel de kwaliteit van het ophalen en de basis voor antwoorden in RAG-pijplijnen
GeneralQA-metrieken	Meet de algemene nauwkeurigheid van het vragen en het herinneren van context

Op basis van interne tests behaalt Eddy AI een nauwkeurigheidsgraad van 96–98% bij het beantwoorden van gebruikersvragen.

FAQ

Wat is de verwachte foutmarge voor Eddy AI-reacties? Hoe wordt naleving van de toegestane foutmarge gemonitord en gemeten?

Op basis van onze interne tests laat Eddy AI een nauwkeurigheidsgraad van 96–98% zien bij het beantwoorden van gebruikersvragen. We integreren actief LLM-observabiliteitstools en gebruiken evaluatiekaders zoals OpenAI Evals, RAGAS en GeneralQA-metrics om prestaties en nauwkeurigheid te beoordelen aan de hand van gedefinieerde benchmarks.

Is het product beoordeeld op bias, toxiciteit of schadelijke inhoud zoals dreigementen, vloekwoorden of politieke polariteit?

Ja, we gebruiken OpenAI Moderation API's om reacties op schadelijke inhoud te evalueren. Als een reactie wordt gemarkeerd, zal Eddy AI ofwel voorkomen dat het antwoord wordt gegenereerd.

Hoe wordt het risico op AI-hallucinaties beheerd in Eddy AI?

Document360 heeft een AI-risicobeperkingsstrategie. Eddy AI is strikt beperkt tot de inhoud van je kennisbasis. Onze systeemprompts sturen de AI om te voorkomen dat er niet-ondersteunde of verzonnen antwoorden worden gegenereerd. Als Eddy AI onzeker is of geen betrouwbare bron kan citeren, zal het antwoorden met "Ik weet het niet."

Zijn AI-beslissingen verklaarbaar, en is er menselijke controle in het proces?

Ja, alle door AI gegenereerde antwoorden van Eddy AI bevatten inline citaties, waardoor eindgebruikers duidelijk de bron van de informatie kunnen zien en begrijpen hoe het antwoord wordt gegenereerd. Daarnaast hanteren we een human-in-the-loop-benadering als onderdeel van ons AI-bestuur. Hoewel Eddy AI kan helpen met aanbevelingen, worden de uiteindelijke beslissingen aan mensen overgelaten, wat toezicht en verantwoordelijkheid waarborgt.

Hoe zorgt u voor transparantie en identificeert u vooroordelen? Hoe genereren de AI-modellen reacties?

We gebruiken de LLM's van OpenAI en vertrouwen op hun scorecards en rapporten voor transparantie. We volgen best practices voor red teaming om biases te identificeren en testen periodiek op modeldrift. Voor het genereren van antwoorden gebruiken we een Retrieval Augmented Generation (RAG)-benadering, waarbij context uit onze kennisbank wordt gehaald en naar de LLM wordt gestuurd.

Welke stappen worden ondernomen om de betrouwbaarheid en prestaties van uw AI-modellen te waarborgen?

We bieden een 99,9% uptime SLA en werken aan het integreren van een back-up LLM-provider. We monitoren regelmatig afwijkingen met behulp van red teaming-praktijken, modeldrifttests en evaluaties die parameters zoals nauwkeurigheid en contextherinnering bijhouden. Als ongewenst gedrag wordt gedetecteerd, onderzoeken we de oorzaak en kunnen we systeemprompts aanpassen, upgraden naar een nieuwe LLM of contentwijzigingen voorstellen aan klanten.

Hoe beheer je modelupdates en zorg je voor voortdurende prestaties?

We voeren regelmatig evaluaties uit om prestaties en modeldrift te monitoren. Op basis van de resultaten updaten we onze systemen en adopteren we nieuwere LLM's om de prestaties en nauwkeurigheid te verbeteren.

Is Eddy AI kwetsbaar voor prompt injection-aanvallen of in staat informatie buiten de kennisbasis te genereren?

Eddy AI is ontworpen met waarborgen om prompt injectie-aanvallen te beperken en ongeautoriseerde of misleidende reacties te voorkomen. Het platform valideert en modereert gebruikersinvoer, isoleert prompts van systeeminstructies en past aanvullende beveiligingsmaatregelen toe die aansluiten bij de beveiligingsaanbevelingen van OWASP LLM.

Eddy AI volgt een Retrieval-Augmented Generation (RAG)-benadering en genereert antwoorden uitsluitend op basis van de inhoud die beschikbaar is binnen je Document360-kennisbank. Als relevante informatie niet beschikbaar is in de kennisbank of de AI geen betrouwbaar en gegronde antwoord kan genereren, zal Eddy AI dienovereenkomstig reageren in plaats van niet-ondersteunde inhoud te genereren.

Documentation Index

AI-veiligheidstesten en verdediging

API

DAN-stijl Jailbreak-testen

Adversariële Testen

LLM Observabiliteit en Prestatie-evaluatie

FAQ