ベンチマーク

MMLU-Pro

エムエムエルユープロ

MMLU の難化版で、選択肢を 10 択に増やして推論力をより精密に測るベンチマークです。

体験区分：調査ベース推奨読者レベル：Level 2

14 分野の問題を 10 択形式で出し、AI が推論してどれだけ正確に答えられるかを測ります。MMLU（4 択）が多くのモデルで 90% 以上に達し飽和したため、難化させた後継指標です。

新モデルのカードで MMLU と並記されることが増え、「MMLU は 90% 超え、MMLU-Pro は 70% 台」のように比較で登場します。推論力の指標選定を議論する場でも目にします。

イメージ

開発フローでの位置

モデルカードを確認

→

MMLU と並べて読む

→

スコアの水準を把握

→

推論寄りのタスクに合わせる

→

GPQA と使い分ける

2026.04·ready

「MMLU-Pro は選択肢が 10 択なので、推論力の差がより出やすい指標です。」

MMLU-Proの見方

241

この用語の見どころ

役割

MMLU が飽和した後、推論力を測り直すための強化指標です。

うれしさ

10 択でランダム正解率を下げ、モデル間の差が見えやすくなります。

注意点

MMLU と数字の直接比較はできないため、文脈確認が必要です。

どこで役立つか

複数モデルの推論力比較や、採用候補を絞る最初の参考に。

はじめに

MMLU との違い（4 択→10 択）と 14 分野の構成が出発点です。

深掘り先

MMLU、GPQA、arXiv:2406.01574

非エンジニアのつまずき

私のコメント