ベンチマーク

SWE-Bench Verified

スウィーベンチベリファイド

SWE-Bench の中から人手で検証した 500 問のサブセットです。

体験区分：調査ベース推奨読者レベル：Level 2

SWE-Bench 全体を人手で精査し、解答可能と確認した 500 問のサブセットです。不正解が「AI の実力不足」か「問題の曖昧さ」かを切り分けられます。

新モデルの発表資料で「SWE-Bench Verified で XX%」という形で出てきます。元の全件セットより信頼性が高いため、各社が比較に使う場面が増えています。

イメージ

開発フローでの位置

新モデル発表を確認

→

スコアの前提を把握

→

他モデルと横比較

→

採用判断の補助資料にする

2026.04·ready

「比較するなら SWE-Bench Verified の数字が信頼性は高いです。」

SWE-Bench Verifiedの見方

233

この用語の見どころ

役割

SWE-Bench から問題品質を人手で担保した 500 問のサブセットです。

うれしさ

問題の曖昧さに左右されず、AI の実力を比べやすくなります。

注意点

500 問は全件の約 22% であり、分野の偏りが残ることがあります。

どこで役立つか

モデル選定時に複数サービスのスコアを横並びで比べる場面で使えます。

はじめに

元の SWE-Bench との関係と「人手検証」の意味を押さえると読めます。

深掘り先

SWE-Bench、Multi-SWE-Bench、HumanEval

非エンジニアのつまずき

私のコメント