cweill/gotests — ProgramBench

← Back to leaderboard · Show all task instances

Automatically generate Go test boilerplate from your source code.

5,294 go medium

603

Generated Behavioral Tests

71.0%

Best Score

Results by Model

#		Model	Score help_outline Percentage of hidden behavioral tests passed.	Cost help_outline Total API cost in USD for this task instance.	Calls help_outline Number of LLM API calls for this task instance.
1		GPT 5.5 (high) OpenAI	71.0%	$4.40	48
2		GPT 5.5 (xhigh) OpenAI	62.2%	$7.99	102
3		Claude Opus 4.6 Anthropic	61.9%	$14.13	274
4		Claude Opus 4.7 Anthropic	61.0%	$4.87	105
5		Claude Opus 4.7 (xhigh) Anthropic	52.6%	$15.81	190
6		Claude Sonnet 4.6 Anthropic	52.2%	$31.36	542
7		GPT 5.5 OpenAI	50.9%	$1.57	25
8		GPT 5.4 OpenAI	45.1%	$0.59	16
9		Gemini 3 Flash Google	36.7%	$0.53	117
10		Claude Haiku 4.5 Anthropic	33.0%	$1.18	135
11		GPT 5.4 mini OpenAI	25.0%	$0.04	12
12		Gemini 3.1 Pro Google	21.4%	$1.22	51
13		GPT 5 mini OpenAI	18.1%	$0.01	8

Click row to see model details