id: E-3(誌面表示: E-03) · 物理ページ: 234–235(pages=2) · category: benchmark · figure_type: structure · status: ready · evaluation_date: 2026-04-29
tagline 33/25-45何を 79/60-200どこで 88/60-200会話例 43/25-50見1 26/15-40見2 27/15-40見3 26/15-40見4 26/15-40見5 39/15-40見6 30/15-50
← E-02 SWE-Bench Verified 目次 E-04 HumanEval →
ベンチマーク
234

Terminal-Bench

ターミナルベンチ
AI がターミナル操作で実作業を完遂できるかを測るベンチマークです。
体験区分:調査ベース 推奨読者レベル:Level 2

何をしてくれるか

ファイル操作・コマンド実行・複数ステップの連鎖など CLI 作業をタスクとして与え、エージェントが最後まで完遂できるかを採点します。手順全体の遂行能力を測ります。

どこで出会うか

Claude Code や Devin のコーディングエージェント評価記事で目にします。「SWE-Bench だけでなくターミナル操作の連鎖も別指標で確認したい」という文脈で登場します。

構造図
2026.04·ready
「Terminal-Bench のスコアも見ると、エージェントの実作業力がわかります。」
Terminal-Benchの見方
235
この用語の見どころ
1
役割

エージェントの CLI 実作業能力を数値で比較できます。

2
うれしさ

コード生成とは別の「手順遂行力」を分けて評価できます。

3
注意点

タスク種別が限られ、全作業の代表性は保証されません。

4
どこで役立つか

エージェント選定や導入判断の補助指標として使えます。

5
はじめに

SWE-Bench との違いと、tbench.ai での公開リーダーボードの確認。

6
深掘り先

SWE-Bench、TAU-Bench、AgentBench

非エンジニアのつまずき
  • ターミナル自体がとっつきにくいです。
  • 何を測っているのかがイメージしにくいです。
  • スコアの差が実用上どの程度の意味を持つのかが比べにくいです。
私のコメント
  • 第一印象:エージェントユースに適したベンチマークの一つという印象です。
  • 良い点:エージェントのターミナル操作能力を測れる点が良いです。
  • ダメな点:モデルが賢くなるほどスコアが飽和しないかが気になります。
  • 誰向けか:オープン・クローズ問わずモデルの実力を比較したい人向けです。
開発フローでの位置
エージェント選定
タスク確認
評価条件を読む
SWE-Bench と併読
関連用語
参考 tbench.ai checked 2026-04-29
E-03·benchmark
バイブコーディング図鑑