id: E-2(誌面表示: E-02) · 物理ページ: 232–233(pages=2) · category: benchmark · figure_type: structure · status: ready · evaluation_date: 2026-04-29
tagline 33/25-45何を 74/60-200どこで 80/60-200会話例 38/25-50見1 36/15-40見2 29/15-40見3 32/15-40見4 33/15-40見5 36/15-40見6 35/15-50
← E-01 SWE-Bench 目次 E-03 Terminal-Bench →
ベンチマーク
232

SWE-Bench Verified

スウィーベンチベリファイド
SWE-Bench の中から人手で検証した 500 問のサブセットです。
体験区分:調査ベース 推奨読者レベル:Level 2

何をしてくれるか

SWE-Bench 全体を人手で精査し、解答可能と確認した 500 問のサブセットです。不正解が「AI の実力不足」か「問題の曖昧さ」かを切り分けられます。

どこで出会うか

新モデルの発表資料で「SWE-Bench Verified で XX%」という形で出てきます。元の全件セットより信頼性が高いため、各社が比較に使う場面が増えています。

構造図
2026.04·ready
「比較するなら SWE-Bench Verified の数字が信頼性は高いです。」
SWE-Bench Verifiedの見方
233
この用語の見どころ
1
役割

SWE-Bench から問題品質を人手で担保した 500 問のサブセットです。

2
うれしさ

問題の曖昧さに左右されず、AI の実力を比べやすくなります。

3
注意点

500 問は全件の約 22% であり、分野の偏りが残ることがあります。

4
どこで役立つか

モデル選定時に複数サービスのスコアを横並びで比べる場面で使えます。

5
はじめに

元の SWE-Bench との関係と「人手検証」の意味を押さえると読めます。

6
深掘り先

SWE-Bench、Multi-SWE-Bench、HumanEval

非エンジニアのつまずき
  • SWE-Bench 自体が不明瞭なまま「Verified」と言われても違いが掴めません。
  • 何を測っているのかがイメージしにくいです。
私のコメント
  • 第一印象:SWE-bench の精度向上版という印象です。
  • 良い点:人手検証で信頼性を高めている点が良いと思います。
  • ダメな点:既に飽和しかけている点が気になります。
  • 誰向けか:モデルのコーディング性能をざっと判断したい人向けです。
開発フローでの位置
新モデル発表を確認
スコアの前提を把握
他モデルと横比較
採用判断の補助資料にする
関連用語
参考 swebench.com checked 2026-04-29
E-02·benchmark
バイブコーディング図鑑