14 分野の問題を 10 択形式で出し、AI が推論してどれだけ正確に答えられるかを測ります。MMLU(4 択)が多くのモデルで 90% 以上に達し飽和したため、難化させた後継指標です。
14 分野の問題を 10 択形式で出し、AI が推論してどれだけ正確に答えられるかを測ります。MMLU(4 択)が多くのモデルで 90% 以上に達し飽和したため、難化させた後継指標です。
新モデルのカードで MMLU と並記されることが増え、「MMLU は 90% 超え、MMLU-Pro は 70% 台」のように比較で登場します。推論力の指標選定を議論する場でも目にします。
MMLU が飽和した後、推論力を測り直すための強化指標です。
10 択でランダム正解率を下げ、モデル間の差が見えやすくなります。
MMLU と数字の直接比較はできないため、文脈確認が必要です。
複数モデルの推論力比較や、採用候補を絞る最初の参考に。
MMLU との違い(4 択→10 択)と 14 分野の構成が出発点です。
MMLU、GPQA、arXiv:2406.01574