id: E-33(誌面表示: E-33) · 物理ページ: 260–261(pages=2) · category: benchmark · figure_type: comparison · status: needs_review · evaluation_date: 2026-04-30
tagline 40/25-45何を 84/60-200どこで 79/60-200会話例 34/25-50見1 28/15-40見2 30/15-40見3 33/15-40見4 31/15-40見5 34/15-40見6 21/15-50
← E-32 GAIA 目次 E-34 OSWorld →
ベンチマーク
260

AgentBench

エージェントベンチ
LLM がエージェントとして複数環境で行動できるかを多面的に測るベンチマークです。
体験区分:調査ベース 推奨読者レベル:Level 4-5

何をしてくれるか

OS 操作や DB、Web ショッピングなど 8 環境のマルチターン課題を LLM に解かせ、チャット応答ではなく実行力を数値化します。清華大学・Z.ai が 2023 年に公開しました。

どこで出会うか

新モデルのエージェント性能を伝える論文や業界記事で引用されます。WebArena・GAIA・OSWorld と並ぶエージェント能力ベンチの主要 4 本のひとつです。

比較図
2026.04·needs_review
「AgentBench の OS 環境で GLM-4.6 が伸びていました。」
AgentBenchの見方
261
この用語の見どころ
1
役割

LLM のエージェント実行力を 8 環境で多面的に評価します。

2
うれしさ

単一タスクでなく多環境の平均で比べるため偏りが出にくいです。

3
注意点

比較は同じ環境同士が正確で、全体平均のみでの判断は誤解を招きます。

4
どこで役立つか

モデル採用の検討や論文の性能比較を読み解く場面で活用できます。

5
はじめに

8 環境の構成と「Avg. は参考値」という読み方を押さえると十分です。

6
深掘り先

WebArena、OSWorld、GAIA

非エンジニアのつまずき
  • (著者記入欄・空)
私のコメント
  • 第一印象:(著者記入欄・空)
  • 良い点:(著者記入欄・空)
  • ダメな点:(著者記入欄・空)
  • 誰向けか:(著者記入欄・空)
開発フローでの位置
モデル候補の選定
環境別スコアの確認
他ベンチとの照合
採用可否の判断
関連用語
参考 (未記入) checked —
E-33·benchmark
バイブコーディング図鑑