2024 年 4 月公開のベンチマークで、実 OS 環境で 369 タスクの到達度を測ります。スクリーンショットを入力してキーやマウス操作で答える形が特徴です。
2024 年 4 月公開のベンチマークで、実 OS 環境で 369 タスクの到達度を測ります。スクリーンショットを入力してキーやマウス操作で答える形が特徴です。
Computer Use の性能比較記事で登場します。公開時は GPT-4V 約 12% に対し人間 約 72% でしたが、Computer Use や Operator の登場でスコアが伸びています。
OS 全体の操作を 369 タスクで定量評価します。
「画面を見て操作する AI」の進歩を数値で追えます。
VLM 版とテキストのみ版でスコアが異なり、比較条件を揃える必要があります。
Computer Use 系ツール選定の参考指標として役立ちます。
369 タスク・実 OS 環境・スクリーンショット入力の 3 点が要点です。
WebArena、AgentBench、VLM