実 OSS のバグを題材に、AI がコードを読み・問題を特定し・パッチを書き、隠しテストが通るかで採点します。リポジトリ理解と問題解決の総合力を測る指標です。
実 OSS のバグを題材に、AI がコードを読み・問題を特定し・パッチを書き、隠しテストが通るかで採点します。リポジトリ理解と問題解決の総合力を測る指標です。
新モデル発表で必ず出る数字で、各社が合格率で自己紹介します。最近は 80 点付近で頭打ちで、それ以上は Verified や実務体感で補うのが現実的です。
AI の「コード実力+リポジトリ理解」を測る代表指標です。
合成問題ではなく、実 OSS の現実 issue で測れます。
80 点付近で各社が交差・頭打ちしがちで、その先は別指標が必要になります。
モデル比較・選定、社内での採用判断の最初の足場として。
「issue → パッチ → テスト」の流れと、Verified の存在、80 点帯の限界。
SWE-Bench Verified、Multi-SWE-Bench、Aider LeaderBoard