ベンチマーク

OSWorld

オーエスワールド

OS 全体を操作できるかを測るエージェント向けベンチマークです。

体験区分：調査ベース推奨読者レベル：Level 4-5

2024 年 4 月公開のベンチマークで、実 OS 環境で 369 タスクの到達度を測ります。スクリーンショットを入力してキーやマウス操作で答える形が特徴です。

Computer Use の性能比較記事で登場します。公開時は GPT-4V 約 12% に対し人間約 72% でしたが、Computer Use や Operator の登場でスコアが伸びています。

比較図

2026.04·needs_review

「OSWorld で Computer Use が 30% を超え、Operator と接戦している印象です。」

OSWorldの見方

263

この用語の見どころ

役割

OS 全体の操作を 369 タスクで定量評価します。

うれしさ

「画面を見て操作する AI」の進歩を数値で追えます。

注意点

VLM 版とテキストのみ版でスコアが異なり、比較条件を揃える必要があります。

どこで役立つか

Computer Use 系ツール選定の参考指標として役立ちます。

はじめに

369 タスク・実 OS 環境・スクリーンショット入力の 3 点が要点です。

深掘り先

WebArena、AgentBench、VLM

非エンジニアのつまずき

私のコメント

開発フローでの位置

モデル選定

→

環境構築

→

タスク実行

→

スコア集計