ベンチマーク

MMLU

マッシブマルチタスクランゲージアンダースタンディング

Massive Multitask Language Understanding の略。57 分野の大学レベル知識で AI の汎用理解力を測るベンチマークです。

体験区分：調査ベース推奨読者レベル：Level 2

人文・社会・STEM など 57 タスクの 4 択問題で、LLM がどれだけ幅広い知識を持つかを採点します。モデルの「汎用理解力」を 1 スコアで比べられる代表的な指標です。

新モデルの発表資料やベンチマーク比較表でスコアが横並びで示される場面に登場します。「人間の専門家平均を超えた」という文脈で引用されることが多く、AI の進化の目安として参照されます。

イメージ

開発フローでの位置

新モデル発表を確認

→

カテゴリを確認

→

他指標と並べる

→

モデルを仮選定

→

実タスクで検証

2026.04·ready

「MMLU は 57 分野で測るので、LLM の汎用力の比較に使いやすいです。」

MMLUの見方

239

この用語の見どころ

役割

LLM の汎用知識理解力を 57 タスクで測る代表指標です。

うれしさ

1 スコアで広範な分野のモデル比較ができます。

注意点

暗記寄りの設問で、推論や実作業の実力とは別物です。

どこで役立つか

モデル選定の最初の絞り込みや、発表資料の読み解きに。

はじめに

4 カテゴリの傘と、人間水準 89.8% という比較軸を把握します。

深掘り先

MMLU-Pro、Chatbot Arena、SWE-Bench

非エンジニアのつまずき

私のコメント