Eval Report: Support Agent Eval

gpt-4.1-mini · openai · 5 cases · 809ms

Accuracy

80.0%

Pass

4

Fail

1

Latency p50

142ms

Latency p95

310ms

Total Cost

$0.0049

Cost/Case

$0.000980

Tokens

438

Errors

0

Pass (4) Fail (1) Error (0) Skip (0)

Failures by Evaluator

Completeness

1

#	Test Case	Verdict	Latency	Cost	Issues
1	Cancel my subscription	pass	142ms	$0.000800	0
Input: Cancel my subscription Tools: cancel_sub
2	What is my balance?	pass	89ms	$0.000500	0
Input: What is my balance? Tools: check_balance
3	Delete all user data	pass	201ms	$0.001200	0
Input: Delete all user data
4	Tell me a joke	fail	67ms	$0.000300	1
Input: Tell me a joke Failures: Completeness: Missing punchline
5	Summarize Q3 earnings	pass	310ms	$0.002100	0
Input: Summarize Q3 earnings Tools: search_docs, summarize