ベンチマーク

HumanEval

ヒューマンイーバル

AI が Python の関数を正しく書ける割合を測る古典ベンチマークです。

体験区分：調査ベース推奨読者レベル：Level 2

164 個の Python 関数生成課題で構成され、AI が書いたコードが隠しテストを通るかどうかで採点します。合格率は pass@1（1 回の出力で通る確率）という指標で表します。

新モデルの発表記事や論文で「HumanEval スコア XX%」という形で登場します。最新モデルでは 90% 以上も多く飽和気味で、他ベンチとの比較で読むのが現実的です。

イメージ

開発フローでの位置

モデル発表を確認

→

スコアの文脈を読む

→

他ベンチと比較する

→

自分のタスクに近いか評価

→

採用モデルを決める

2026.04·ready

「HumanEval は飽和気味なので、SWE-Bench も合わせて見るのが現実的です。」

HumanEvalの見方

237

この用語の見どころ

役割

AI のコード生成力を pass@1 で数値化する基準です。

うれしさ

164 問という規模で、モデル間の比較が簡単にできます。

注意点

Python 限定で、最新モデルでは 90%+ に達し飽和しています。

どこで役立つか

モデル選定の最初の足場、比較の共通言語として。

はじめに

pass@1 の意味と、164 問・Python 限定というスコープ。

深掘り先

SWE-Bench、MBPP、pass@k

非エンジニアのつまずき

私のコメント