id: E-1(誌面表示: E-01) · 物理ページ: 230–231(pages=2) · category: benchmark · figure_type: workflow · status: ready · evaluation_date: 2026-04-23
tagline 40/25-45何を 76/60-200どこで 73/60-200会話例 46/25-50見1 28/15-40見2 27/15-40見3 36/15-40見4 27/15-40見5 40/15-40見6 50/15-50
← D-71 Whisper 目次 E-02 SWE-Bench Verified →
ベンチマーク
230

SWE-Bench

スウィーベンチ
実在する OSS の issue を AI がどれだけ自力で解けるかを測るベンチマークです。
体験区分:調査ベース 推奨読者レベル:Level 2

何をしてくれるか

実 OSS のバグを題材に、AI がコードを読み・問題を特定し・パッチを書き、隠しテストが通るかで採点します。リポジトリ理解と問題解決の総合力を測る指標です。

どこで出会うか

新モデル発表で必ず出る数字で、各社が合格率で自己紹介します。最近は 80 点付近で頭打ちで、それ以上は Verified や実務体感で補うのが現実的です。

ワークフロー図
2026.04·ready
「SWE-Bench は 80 点帯で頭打ちなので、Verified や体感で補うのが現実的です。」
SWE-Benchの見方
231
この用語の見どころ
1
役割

AI の「コード実力+リポジトリ理解」を測る代表指標です。

2
うれしさ

合成問題ではなく、実 OSS の現実 issue で測れます。

3
注意点

80 点付近で各社が交差・頭打ちしがちで、その先は別指標が必要になります。

4
どこで役立つか

モデル比較・選定、社内での採用判断の最初の足場として。

5
はじめに

「issue → パッチ → テスト」の流れと、Verified の存在、80 点帯の限界。

6
深掘り先

SWE-Bench Verified、Multi-SWE-Bench、Aider LeaderBoard

非エンジニアのつまずき
  • 評価条件が揃わないと比較できず、各社の数字をそのまま使えません。
  • 80 点超でも実務体感が違うことがあり、スコアを鵜呑みにすると困ります。
  • 自分の業務に近い問題かどうか判断がつかず、採用の足場にしにくいです。
私のコメント
  • 第一印象:2025 年ごろからスコア比較の常連になった印象です。
  • 良い点:エージェント力をスコアで見比べられます。
  • ダメな点:頭打ち気味で上位モデルの差を測りにくくなっています。
  • 誰向けか:モデルの賢さをベンチマークで把握したい人向けです。
開発フローでの位置
新モデル発表
数値の評価設定を確認
自分のタスクに近いか評価
採用判断の足場にする
関連用語
参考 swebench.com checked 2026-04-23
E-01·benchmark
バイブコーディング図鑑