id: E-30(誌面表示: E-30) · 物理ページ: 254–255(pages=2) · category: benchmark · figure_type: workflow · status: ready · evaluation_date: 2026-04-29
tagline 52/25-45 ↑7何を 75/60-200どこで 78/60-200会話例 45/25-50見1 26/15-40見2 22/15-40見3 28/15-40見4 28/15-40見5 29/15-40見6 23/15-50
← E-27 IQ Bench 目次 E-31 WebArena →
ベンチマーク
254

TAU-Bench

タウベンチ
Tool-Agent-User の略。ビジネス対話タスクで AI エージェントの総合力を測るベンチマークです。
体験区分:調査ベース 推奨読者レベル:Level 2

何をしてくれるか

顧客対応・航空券予約・小売返品など実務シナリオを再現し、AI エージェントがルールを守りながらツール呼び出しと複数ターン対話で完遂できるかを採点します。

どこで出会うか

エージェント系モデルの発表や比較記事で SWE-Bench と並んで引用されます。「ビジネス寄りの難しさ」を示す指標として研究者や AI 評価担当者に参照されます。

ワークフロー図
2026.04·ready
「TAU-Bench は接客寄りの難しさを測るので、SWE-Bench と併用が現実的です。」
TAU-Benchの見方
255
この用語の見どころ
1
役割

ビジネス対話でのエージェント能力を採点する指標です。

2
うれしさ

実務シナリオでルール遵守まで含めて測れます。

3
注意点

コード系ベンチとは測定軸が違うため、単純比較は禁物です。

4
どこで役立つか

カスタマー AI や対話エージェントの導入判断の足場として。

5
はじめに

Tau の略展開と Sierra 社が開発した経緯が出発点です。

6
深掘り先

SWE-Bench、WebArena、GAIA

非エンジニアのつまずき
  • 馴染みが薄く、名前(頭文字)からどんなものかが想像しづらいです
私のコメント
  • 第一印象:今回初めて知りました。
  • 良い点:ツール呼び出しの巧拙を測れるのは重要だと思います。
  • ダメな点:基準スコアの水準に馴染みがなく掴みづらいです。
  • 誰向けか:エージェントとして動かす LLM を選定したい人向けです。
開発フローでの位置
エージェント系モデルの発表
シナリオ種別を確認
ルール遵守スコアを確認
SWE-Bench と比較
採用判断の参考にする
関連用語
参考 github.com/sierra-research/tau-bench checked 2026-04-29
E-30·benchmark
バイブコーディング図鑑