Zum Inhalt springen
K Krynex Labs
Alle Artikel
#Evals#Agents#Production

Wie wir Agent-Evals bauen, die Production-Bugs vorhersagen

Eval-Sets sind das einzige, was zwischen dir und einem Outage steht. So bauen wir sie für AI-Agents in regulierten Branchen.

Annett Krusch

Ein Agent ohne Eval-Suite ist eine Demo, kein System. Hier ist, wie wir das in 11 Wochen für eine Bank gebaut haben.

Was ist ein gutes Eval-Set?

  • Repräsentativ: Distribution matched Production
  • Verifizierbar: jede Antwort hat eine wahre Lösung
  • Versioniert: wir wissen, was sich geändert hat
  • Schmerzhaft: enthält die Cases, die früher schon weh getan haben

Aufbau

  1. Sammle 100 echte Cases. Kein synthetisches Zeug.
  2. Labele jeden mit Expected-Output + Acceptance-Criteria.
  3. Schreib einen Judge — kann ein LLM sein, sollte aber Regeln haben.
  4. Lass es bei jedem Commit laufen.

Wann es brennt

Wir messen drei Achsen:

  • Accuracy (Score gegen Gold-Set)
  • Cost (Tokens × Preis)
  • Latency (P50/P95)

Wenn eine Achse um >5% driftet, rotes Licht. Kein Deploy.