ベンチマーク

TAU-Bench

タウベンチ

Tool-Agent-User の略。ビジネス対話タスクで AI エージェントの総合力を測るベンチマークです。

体験区分：調査ベース推奨読者レベル：Level 2

顧客対応・航空券予約・小売返品など実務シナリオを再現し、AI エージェントがルールを守りながらツール呼び出しと複数ターン対話で完遂できるかを採点します。

エージェント系モデルの発表や比較記事で SWE-Bench と並んで引用されます。「ビジネス寄りの難しさ」を示す指標として研究者や AI 評価担当者に参照されます。

イメージ

開発フローでの位置

エージェント系モデルの発表

→

シナリオ種別を確認

→

ルール遵守スコアを確認

→

SWE-Bench と比較

→

採用判断の参考にする

2026.04·ready

「TAU-Bench は接客寄りの難しさを測るので、SWE-Bench と併用が現実的です。」

TAU-Benchの見方

255

この用語の見どころ

役割

ビジネス対話でのエージェント能力を採点する指標です。

うれしさ

実務シナリオでルール遵守まで含めて測れます。

注意点

コード系ベンチとは測定軸が違うため、単純比較は禁物です。

どこで役立つか

カスタマー AI や対話エージェントの導入判断の足場として。

はじめに

Tau の略展開と Sierra 社が開発した経緯が出発点です。

深掘り先

SWE-Bench、WebArena、GAIA

非エンジニアのつまずき

私のコメント