OS 操作や DB、Web ショッピングなど 8 環境のマルチターン課題を LLM に解かせ、チャット応答ではなく実行力を数値化します。清華大学・Z.ai が 2023 年に公開しました。
OS 操作や DB、Web ショッピングなど 8 環境のマルチターン課題を LLM に解かせ、チャット応答ではなく実行力を数値化します。清華大学・Z.ai が 2023 年に公開しました。
新モデルのエージェント性能を伝える論文や業界記事で引用されます。WebArena・GAIA・OSWorld と並ぶエージェント能力ベンチの主要 4 本のひとつです。
LLM のエージェント実行力を 8 環境で多面的に評価します。
単一タスクでなく多環境の平均で比べるため偏りが出にくいです。
比較は同じ環境同士が正確で、全体平均のみでの判断は誤解を招きます。
モデル採用の検討や論文の性能比較を読み解く場面で活用できます。
8 環境の構成と「Avg. は参考値」という読み方を押さえると十分です。
WebArena、OSWorld、GAIA