人文・社会・STEM など 57 タスクの 4 択問題で、LLM がどれだけ幅広い知識を持つかを採点します。モデルの「汎用理解力」を 1 スコアで比べられる代表的な指標です。
人文・社会・STEM など 57 タスクの 4 択問題で、LLM がどれだけ幅広い知識を持つかを採点します。モデルの「汎用理解力」を 1 スコアで比べられる代表的な指標です。
新モデルの発表資料やベンチマーク比較表でスコアが横並びで示される場面に登場します。「人間の専門家平均を超えた」という文脈で引用されることが多く、AI の進化の目安として参照されます。
LLM の汎用知識理解力を 57 タスクで測る代表指標です。
1 スコアで広範な分野のモデル比較ができます。
暗記寄りの設問で、推論や実作業の実力とは別物です。
モデル選定の最初の絞り込みや、発表資料の読み解きに。
4 カテゴリの傘と、人間水準 89.8% という比較軸を把握します。
MMLU-Pro、Chatbot Arena、SWE-Bench