id: E-21(誌面表示: E-21) · 物理ページ: 240–241(pages=2) · category: benchmark · figure_type: comparison · status: ready · evaluation_date: 2026-04-29
tagline 42/25-45何を 86/60-200どこで 86/60-200会話例 39/25-50見1 29/15-40見2 32/15-40見3 30/15-40見4 27/15-40見5 31/15-40見6 26/15-50
← E-20 MMLU 目次 E-22 GPQA →
ベンチマーク
240

MMLU-Pro

エムエムエルユープロ
MMLU の難化版で、選択肢を 10 択に増やして推論力をより精密に測るベンチマークです。
体験区分:調査ベース 推奨読者レベル:Level 2

何をしてくれるか

14 分野の問題を 10 択形式で出し、AI が推論してどれだけ正確に答えられるかを測ります。MMLU(4 択)が多くのモデルで 90% 以上に達し飽和したため、難化させた後継指標です。

どこで出会うか

新モデルのカードで MMLU と並記されることが増え、「MMLU は 90% 超え、MMLU-Pro は 70% 台」のように比較で登場します。推論力の指標選定を議論する場でも目にします。

比較図
2026.04·ready
「MMLU-Pro は選択肢が 10 択なので、推論力の差がより出やすい指標です。」
MMLU-Proの見方
241
この用語の見どころ
1
役割

MMLU が飽和した後、推論力を測り直すための強化指標です。

2
うれしさ

10 択でランダム正解率を下げ、モデル間の差が見えやすくなります。

3
注意点

MMLU と数字の直接比較はできないため、文脈確認が必要です。

4
どこで役立つか

複数モデルの推論力比較や、採用候補を絞る最初の参考に。

5
はじめに

MMLU との違い(4 択→10 択)と 14 分野の構成が出発点です。

6
深掘り先

MMLU、GPQA、arXiv:2406.01574

非エンジニアのつまずき
  • MMLU を知らないと「Pro」と言われても何が違うか分かりません。
  • ランダム正解率がスコアに与える影響が数学的に掴みにくいです。
私のコメント
  • 第一印象:今回初めてちゃんと認識しました。
  • 良い点:ベンチマーク側を強化して差別化を図っている点が良いと思います。
  • ダメな点:10 択化による評価トークンの増加が気になります。
  • 誰向けか:モデルの知識・推論力を評価したいモデル開発者向けです。
開発フローでの位置
モデルカードを確認
MMLU と並べて読む
スコアの水準を把握
推論寄りのタスクに合わせる
GPQA と使い分ける
関連用語
参考 github.com/TIGER-AI-Lab/MMLU-Pro checked 2026-04-29
E-21·benchmark
バイブコーディング図鑑