Question 1

Wat is agent-eval?

Accepted Answer

agent-eval is een zero-dependency JavaScript-library die een opgenomen AI-agent-run omzet in een geslaagd/gefaald-rapport dat je in CI kunt zetten. Het bewijst welke tools zijn gebruikt, of scope en budget standhielden, of de agent klaar was, en wat zijn output bevatte — en scoort vervolgens de consistentie over veel runs om wisselvalligheid te betrappen. Ongeveer 4 KB, Node 18+, MIT-gelicentieerd, werkt in elke test runner.

Question 2

Hoe test je een niet-deterministische AI-agent?

Accepted Answer

Je bewijst niet de exacte outputtekst — je bewijst gedrag. Neem op wat de agent deed (zijn acties en uiteindelijke output) en controleer invarianten: dat hij alleen de tools gebruikte die je toestond, binnen een kosten- en aanroepbudget bleef, daadwerkelijk klaar was, en dat zijn output het echte antwoord bevatte. Draai hem daarna veel keer en scoor het slaagpercentage — één groene run is geen test; een stabiel slaagpercentage wel. Een check die een fout gooit faalt gesloten, nooit stilzwijgend.

Question 3

Hoe verschilt agent-eval van agent-guardrails?

Accepted Answer

agent-guardrails is de runtime-helft — het weigert onveilige acties voordat ze draaien. agent-eval is de test-tijd-helft — het verifieert een opgenomen run achteraf, in CI. Dezelfde actievorm, hetzelfde mentale model: guardrails stoppen de agent live; eval bewijst in je test suite dat hij zich gedroeg.

usedTools(list)	elke vermelde tool werd minstens één keer gebruikt
usedOnlyTools(list)	de agent bleef binnen een allowlist (geen aanroepen buiten scope)
didNotUseTools(list)	geen van deze tools werd aangeraakt
outputContains / Omits / Matches	asserteer op de uiteindelijke output (substrings, verboden strings, RegExp)
withinBudget({cost,calls})	kosten & aantal aanroepen bleven binnen de grenzen
maxSteps(n)	de agent voerde niet meer dan n acties uit
finished(predicate?)	hij produceerde daadwerkelijk een output
custom(name, fn)	je eigen predicaat over (output, run)
judge(name, fn)	LLM-als-jury — jij levert de model-aanroep, zodat het zero-dependency blijft

agent-eval

Waarom

Snelstart

Ingebouwde checks

Onderdeel van een tweedelige betrouwbaarheids-toolkit

agent-guardrails →

agent-eval

Vragen