id: E-31(誌面表示: E-31) · 物理ページ: 256–257(pages=2) · category: benchmark · figure_type: structure · status: needs_review · evaluation_date: 2026-04-30
tagline 35/25-45何を 87/60-200どこで 99/60-200会話例 37/25-50見1 29/15-40見2 35/15-40見3 37/15-40見4 30/15-40見5 37/15-40見6 23/15-50
← E-30 TAU-Bench 目次 E-32 GAIA →
ベンチマーク
256

WebArena

ウェブアリーナ
Web ブラウザ上で動く AI エージェントの実用度を測るベンチマークです。
体験区分:調査ベース 推奨読者レベル:Level 2-3

何をしてくれるか

カーネギーメロン大学が 2023 年に発表したベンチマークです。Docker で再現した 5 種の擬似 Web サイトに自然言語タスク 812 個を与え、AI エージェントの完了率を計測します。

どこで出会うか

ブラウザ操作系エージェント(Operator・Computer Use 等)の性能比較記事で頻出します。「WebArena スコア XX%」という共通指標で各サービスの実用度を横並びに比べる際に使われます。

構造図
2026.04·needs_review
「WebArena のスコアで Operator が頭一つ抜けたらしいですね。」
WebArenaの見方
257
この用語の見どころ
1
役割

ブラウザ操作エージェントの完了率を共通スケールで測ります。

2
うれしさ

実サイトに近い環境でテストするため、スコアが実用度に直結しやすいです。

3
注意点

Docker のローカル再現環境のため、実本番サービスへの影響はありません。

4
どこで役立つか

エージェント選定時に各サービスの実力を横並びで比較できます。

5
はじめに

Docker 擬似環境・812 タスク・完了率の 3 点を押さえれば読み解けます。

6
深掘り先

GAIA、AgentBench、OSWorld

非エンジニアのつまずき
  • (著者記入欄・空)
私のコメント
  • 第一印象:(著者記入欄・空)
  • 良い点:(著者記入欄・空)
  • ダメな点:(著者記入欄・空)
  • 誰向けか:(著者記入欄・空)
開発フローでの位置
エージェント選定
環境構築
タスク実行
完了率集計
比較・報告
関連用語
参考 webarena.dev checked 2026-04-30
E-31·benchmark
バイブコーディング図鑑