SWE-Bench 全体を人手で精査し、解答可能と確認した 500 問のサブセットです。不正解が「AI の実力不足」か「問題の曖昧さ」かを切り分けられます。
SWE-Bench 全体を人手で精査し、解答可能と確認した 500 問のサブセットです。不正解が「AI の実力不足」か「問題の曖昧さ」かを切り分けられます。
新モデルの発表資料で「SWE-Bench Verified で XX%」という形で出てきます。元の全件セットより信頼性が高いため、各社が比較に使う場面が増えています。
SWE-Bench から問題品質を人手で担保した 500 問のサブセットです。
問題の曖昧さに左右されず、AI の実力を比べやすくなります。
500 問は全件の約 22% であり、分野の偏りが残ることがあります。
モデル選定時に複数サービスのスコアを横並びで比べる場面で使えます。
元の SWE-Bench との関係と「人手検証」の意味を押さえると読めます。
SWE-Bench、Multi-SWE-Bench、HumanEval