164 個の Python 関数生成課題で構成され、AI が書いたコードが隠しテストを通るかどうかで採点します。合格率は pass@1(1 回の出力で通る確率)という指標で表します。
164 個の Python 関数生成課題で構成され、AI が書いたコードが隠しテストを通るかどうかで採点します。合格率は pass@1(1 回の出力で通る確率)という指標で表します。
新モデルの発表記事や論文で「HumanEval スコア XX%」という形で登場します。最新モデルでは 90% 以上も多く飽和気味で、他ベンチとの比較で読むのが現実的です。
AI のコード生成力を pass@1 で数値化する基準です。
164 問という規模で、モデル間の比較が簡単にできます。
Python 限定で、最新モデルでは 90%+ に達し飽和しています。
モデル選定の最初の足場、比較の共通言語として。
pass@1 の意味と、164 問・Python 限定というスコープ。
SWE-Bench、MBPP、pass@k