ベンチマーク

Terminal-Bench

ターミナルベンチ

AI がターミナル操作で実作業を完遂できるかを測るベンチマークです。

体験区分：調査ベース推奨読者レベル：Level 2

ファイル操作・コマンド実行・複数ステップの連鎖など CLI 作業をタスクとして与え、エージェントが最後まで完遂できるかを採点します。手順全体の遂行能力を測ります。

Claude Code や Devin のコーディングエージェント評価記事で目にします。「SWE-Bench だけでなくターミナル操作の連鎖も別指標で確認したい」という文脈で登場します。

イメージ

開発フローでの位置

エージェント選定

→

タスク確認

→

評価条件を読む

→

SWE-Bench と併読

2026.04·ready

「Terminal-Bench のスコアも見ると、エージェントの実作業力がわかります。」

Terminal-Benchの見方

235

この用語の見どころ

役割

エージェントの CLI 実作業能力を数値で比較できます。

うれしさ

コード生成とは別の「手順遂行力」を分けて評価できます。

注意点

タスク種別が限られ、全作業の代表性は保証されません。

どこで役立つか

エージェント選定や導入判断の補助指標として使えます。

はじめに

SWE-Bench との違いと、tbench.ai での公開リーダーボードの確認。

深掘り先

SWE-Bench、TAU-Bench、AgentBench

非エンジニアのつまずき

私のコメント