#Evals#Agents#Production
Wie wir Agent-Evals bauen, die Production-Bugs vorhersagen
Eval-Sets sind das einzige, was zwischen dir und einem Outage steht. So bauen wir sie für AI-Agents in regulierten Branchen.
Ein Agent ohne Eval-Suite ist eine Demo, kein System. Hier ist, wie wir das in 11 Wochen für eine Bank gebaut haben.
Was ist ein gutes Eval-Set?
- Repräsentativ: Distribution matched Production
- Verifizierbar: jede Antwort hat eine wahre Lösung
- Versioniert: wir wissen, was sich geändert hat
- Schmerzhaft: enthält die Cases, die früher schon weh getan haben
Aufbau
- Sammle 100 echte Cases. Kein synthetisches Zeug.
- Labele jeden mit Expected-Output + Acceptance-Criteria.
- Schreib einen Judge — kann ein LLM sein, sollte aber Regeln haben.
- Lass es bei jedem Commit laufen.
Wann es brennt
Wir messen drei Achsen:
- Accuracy (Score gegen Gold-Set)
- Cost (Tokens × Preis)
- Latency (P50/P95)
Wenn eine Achse um >5% driftet, rotes Licht. Kein Deploy.