Projekt starten

#Evals#Agents#Production

Wie wir Agent-Evals bauen, die Production-Bugs vorhersagen

Eval-Sets sind das einzige, was zwischen dir und einem Outage steht. So bauen wir sie für AI-Agents in regulierten Branchen.

Annett Krusch 28. April 2026

Ein Agent ohne Eval-Suite ist eine Demo, kein System. Hier ist, wie wir das in 11 Wochen für eine Bank gebaut haben.

Was ist ein gutes Eval-Set?

Repräsentativ: Distribution matched Production
Verifizierbar: jede Antwort hat eine wahre Lösung
Versioniert: wir wissen, was sich geändert hat
Schmerzhaft: enthält die Cases, die früher schon weh getan haben

Aufbau

Sammle 100 echte Cases. Kein synthetisches Zeug.
Labele jeden mit Expected-Output + Acceptance-Criteria.
Schreib einen Judge — kann ein LLM sein, sollte aber Regeln haben.
Lass es bei jedem Commit laufen.

Wann es brennt

Wir messen drei Achsen:

Accuracy (Score gegen Gold-Set)
Cost (Tokens × Preis)
Latency (P50/P95)

Wenn eine Achse um >5% driftet, rotes Licht. Kein Deploy.