AmmarAbouZor/tui-journal — ProgramBench

← Back to leaderboard · Show all task instances

AmmarAbouZor/tui-journal

Your journal app if you live in a terminal

1,402

Generated Behavioral Tests

71.0%

Best Score

Results by Model

#		Model	Score help_outline Percentage of hidden behavioral tests passed.	Cost help_outline Total API cost in USD for this task instance.	Calls help_outline Number of LLM API calls for this task instance.
1		Claude Opus 4.7 (xhigh) Anthropic	71.0%	$4.95	115
2		Claude Opus 4.7 Anthropic	70.8%	$4.42	107
3		GPT 5.5 OpenAI	70.0%	$1.26	21
4		GPT 5.4 OpenAI	58.4%	$0.29	10
5		Claude Haiku 4.5 Anthropic	44.2%	$0.65	116
6		Gemini 3.1 Pro Google	41.7%	$0.48	42
7		GPT 5 mini OpenAI	34.5%	$0.03	20
8		GPT 5.4 mini OpenAI	34.2%	$0.04	9
9		Claude Sonnet 4.6 Anthropic	8.6%	$35.70	579
10		Gemini 3 Flash Google	0.5%	$0.26	74
11		Claude Opus 4.6 Anthropic	0.0%	$3.27	239
12		GPT 5.5 (xhigh) OpenAI	n/a	$6.96	63
13		GPT 5.5 (high) OpenAI	n/a	$4.48	45

Click row to see model details