カーネギーメロン大学が 2023 年に発表したベンチマークです。Docker で再現した 5 種の擬似 Web サイトに自然言語タスク 812 個を与え、AI エージェントの完了率を計測します。
カーネギーメロン大学が 2023 年に発表したベンチマークです。Docker で再現した 5 種の擬似 Web サイトに自然言語タスク 812 個を与え、AI エージェントの完了率を計測します。
ブラウザ操作系エージェント(Operator・Computer Use 等)の性能比較記事で頻出します。「WebArena スコア XX%」という共通指標で各サービスの実用度を横並びに比べる際に使われます。
ブラウザ操作エージェントの完了率を共通スケールで測ります。
実サイトに近い環境でテストするため、スコアが実用度に直結しやすいです。
Docker のローカル再現環境のため、実本番サービスへの影響はありません。
エージェント選定時に各サービスの実力を横並びで比較できます。
Docker 擬似環境・812 タスク・完了率の 3 点を押さえれば読み解けます。
GAIA、AgentBench、OSWorld