ベンチマーク

SWE-Bench

スウィーベンチ

実在する OSS の issue を AI がどれだけ自力で解けるかを測るベンチマークです。

体験区分：調査ベース推奨読者レベル：Level 2

実 OSS のバグを題材に、AI がコードを読み・問題を特定し・パッチを書き、隠しテストが通るかで採点します。リポジトリ理解と問題解決の総合力を測る指標です。

新モデル発表で必ず出る数字で、各社が合格率で自己紹介します。最近は 80 点付近で頭打ちで、それ以上は Verified や実務体感で補うのが現実的です。

イメージ

開発フローでの位置

新モデル発表

→

数値の評価設定を確認

→

自分のタスクに近いか評価

→

採用判断の足場にする

2026.04·ready

「SWE-Bench は 80 点帯で頭打ちなので、Verified や体感で補うのが現実的です。」

SWE-Benchの見方

231

この用語の見どころ

役割

AI の「コード実力＋リポジトリ理解」を測る代表指標です。

うれしさ

合成問題ではなく、実 OSS の現実 issue で測れます。

注意点

80 点付近で各社が交差・頭打ちしがちで、その先は別指標が必要になります。

どこで役立つか

モデル比較・選定、社内での採用判断の最初の足場として。

はじめに

「issue → パッチ → テスト」の流れと、Verified の存在、80 点帯の限界。

深掘り先

SWE-Bench Verified、Multi-SWE-Bench、Aider LeaderBoard

非エンジニアのつまずき

私のコメント