ファイル操作・コマンド実行・複数ステップの連鎖など CLI 作業をタスクとして与え、エージェントが最後まで完遂できるかを採点します。手順全体の遂行能力を測ります。
ファイル操作・コマンド実行・複数ステップの連鎖など CLI 作業をタスクとして与え、エージェントが最後まで完遂できるかを採点します。手順全体の遂行能力を測ります。
Claude Code や Devin のコーディングエージェント評価記事で目にします。「SWE-Bench だけでなくターミナル操作の連鎖も別指標で確認したい」という文脈で登場します。
エージェントの CLI 実作業能力を数値で比較できます。
コード生成とは別の「手順遂行力」を分けて評価できます。
タスク種別が限られ、全作業の代表性は保証されません。
エージェント選定や導入判断の補助指標として使えます。
SWE-Bench との違いと、tbench.ai での公開リーダーボードの確認。
SWE-Bench、TAU-Bench、AgentBench