顧客対応・航空券予約・小売返品など実務シナリオを再現し、AI エージェントがルールを守りながらツール呼び出しと複数ターン対話で完遂できるかを採点します。
顧客対応・航空券予約・小売返品など実務シナリオを再現し、AI エージェントがルールを守りながらツール呼び出しと複数ターン対話で完遂できるかを採点します。
エージェント系モデルの発表や比較記事で SWE-Bench と並んで引用されます。「ビジネス寄りの難しさ」を示す指標として研究者や AI 評価担当者に参照されます。
ビジネス対話でのエージェント能力を採点する指標です。
実務シナリオでルール遵守まで含めて測れます。
コード系ベンチとは測定軸が違うため、単純比較は禁物です。
カスタマー AI や対話エージェントの導入判断の足場として。
Tau の略展開と Sierra 社が開発した経緯が出発点です。
SWE-Bench、WebArena、GAIA