id: E-34(誌面表示: E-34) · 物理ページ: 262–263(pages=2) · category: benchmark · figure_type: comparison · status: needs_review · evaluation_date: 2026-04-30
tagline 31/25-45何を 73/60-200どこで 88/60-200会話例 49/25-50見1 23/15-40見2 25/15-40見3 37/15-40見4 31/15-40見5 33/15-40見6 23/15-50
← E-33 AgentBench 目次 E-50 Chatbot Arena →
ベンチマーク
262

OSWorld

オーエスワールド
OS 全体を操作できるかを測るエージェント向けベンチマークです。
体験区分:調査ベース 推奨読者レベル:Level 4-5

何をしてくれるか

2024 年 4 月公開のベンチマークで、実 OS 環境で 369 タスクの到達度を測ります。スクリーンショットを入力してキーやマウス操作で答える形が特徴です。

どこで出会うか

Computer Use の性能比較記事で登場します。公開時は GPT-4V 約 12% に対し人間 約 72% でしたが、Computer Use や Operator の登場でスコアが伸びています。

比較図
2026.04·needs_review
「OSWorld で Computer Use が 30% を超え、Operator と接戦している印象です。」
OSWorldの見方
263
この用語の見どころ
1
役割

OS 全体の操作を 369 タスクで定量評価します。

2
うれしさ

「画面を見て操作する AI」の進歩を数値で追えます。

3
注意点

VLM 版とテキストのみ版でスコアが異なり、比較条件を揃える必要があります。

4
どこで役立つか

Computer Use 系ツール選定の参考指標として役立ちます。

5
はじめに

369 タスク・実 OS 環境・スクリーンショット入力の 3 点が要点です。

6
深掘り先

WebArena、AgentBench、VLM

非エンジニアのつまずき
  • (著者記入欄・空)
私のコメント
  • 第一印象:(著者記入欄・空)
  • 良い点:(著者記入欄・空)
  • ダメな点:(著者記入欄・空)
  • 誰向けか:(著者記入欄・空)
開発フローでの位置
モデル選定
環境構築
タスク実行
スコア集計
関連用語
参考 (未記入) checked —
E-34·benchmark
バイブコーディング図鑑