id: E-20(誌面表示: E-20) · 物理ページ: 238–239(pages=2) · category: benchmark · figure_type: structure · status: ready · evaluation_date: 2026-04-29
tagline 73/25-45 ↑28何を 79/60-200どこで 90/60-200会話例 36/25-50見1 27/15-40見2 22/15-40見3 25/15-40見4 26/15-40見5 31/15-40見6 31/15-50
← E-04 HumanEval 目次 E-21 MMLU-Pro →
ベンチマーク
238

MMLU

マッシブマルチタスクランゲージアンダースタンディング
Massive Multitask Language Understanding の略。57 分野の大学レベル知識で AI の汎用理解力を測るベンチマークです。
体験区分:調査ベース 推奨読者レベル:Level 2

何をしてくれるか

人文・社会・STEM など 57 タスクの 4 択問題で、LLM がどれだけ幅広い知識を持つかを採点します。モデルの「汎用理解力」を 1 スコアで比べられる代表的な指標です。

どこで出会うか

新モデルの発表資料やベンチマーク比較表でスコアが横並びで示される場面に登場します。「人間の専門家平均を超えた」という文脈で引用されることが多く、AI の進化の目安として参照されます。

構造図
2026.04·ready
「MMLU は 57 分野で測るので、LLM の汎用力の比較に使いやすいです。」
MMLUの見方
239
この用語の見どころ
1
役割

LLM の汎用知識理解力を 57 タスクで測る代表指標です。

2
うれしさ

1 スコアで広範な分野のモデル比較ができます。

3
注意点

暗記寄りの設問で、推論や実作業の実力とは別物です。

4
どこで役立つか

モデル選定の最初の絞り込みや、発表資料の読み解きに。

5
はじめに

4 カテゴリの傘と、人間水準 89.8% という比較軸を把握します。

6
深掘り先

MMLU-Pro、Chatbot Arena、SWE-Bench

非エンジニアのつまずき
  • 文字列はたまに見るのですが、何を測っているのか全然知りませんでした
  • 各社モデル発表時のベンチマークが出てきますが、よく分からないですよね
私のコメント
  • 第一印象:何か書いてある、数字というイメージです
  • 良い点:人の能力に近い水準で測れる点が良さそうです
  • ダメな点:ベンチ特化のモデルが出そうで KPI 化されすぎな印象です
  • 誰向けか:モデルの賢さを評価する人向けです
開発フローでの位置
新モデル発表を確認
カテゴリを確認
他指標と並べる
モデルを仮選定
実タスクで検証
関連用語
E-20·benchmark
バイブコーディング図鑑