ベンチマーク

AgentBench

エージェントベンチ

LLM がエージェントとして複数環境で行動できるかを多面的に測るベンチマークです。

体験区分：調査ベース推奨読者レベル：Level 4-5

OS 操作や DB、Web ショッピングなど 8 環境のマルチターン課題を LLM に解かせ、チャット応答ではなく実行力を数値化します。清華大学・Z.ai が 2023 年に公開しました。

新モデルのエージェント性能を伝える論文や業界記事で引用されます。WebArena・GAIA・OSWorld と並ぶエージェント能力ベンチの主要 4 本のひとつです。

イメージ

開発フローでの位置

モデル候補の選定

→

環境別スコアの確認

→

他ベンチとの照合

→

採用可否の判断

2026.04·needs_review

「AgentBench の OS 環境で GLM-4.6 が伸びていました。」

AgentBenchの見方

261

この用語の見どころ

役割

LLM のエージェント実行力を 8 環境で多面的に評価します。

うれしさ

単一タスクでなく多環境の平均で比べるため偏りが出にくいです。

注意点

比較は同じ環境同士が正確で、全体平均のみでの判断は誤解を招きます。

どこで役立つか

モデル採用の検討や論文の性能比較を読み解く場面で活用できます。

はじめに

8 環境の構成と「Avg. は参考値」という読み方を押さえると十分です。

深掘り先

WebArena、OSWorld、GAIA

非エンジニアのつまずき

私のコメント