id: E-24(誌面表示: E-24) · 物理ページ: 246–247(pages=2) · category: benchmark · figure_type: comparison · status: ready · evaluation_date: 2026-04-30
tagline 46/25-45 ↑1何を 66/60-200どこで 78/60-200会話例 42/25-50見1 27/15-40見2 36/15-40見3 31/15-40見4 31/15-40見5 35/15-40見6 22/15-50
← E-23 GSM8K 目次 E-25 AIME →
ベンチマーク
246

MATH

マス
競技数学レベルの推論を測るベンチマークです。難問 12,500 問でモデルの数学力を評価します。
体験区分:調査ベース 推奨読者レベル:Level 3-5

何をしてくれるか

2021 年公開の数学ベンチマークです。代数・幾何・数論・確率など 7 分類 12,500 問を収録し、最終回答を照合して正答率を算出します。

どこで出会うか

新モデルの発表資料で「MATH スコア 90%超」のように登場します。GSM8K(小学校算数レベル)より格段に難しく、Level 5 はいまも伸び代が残っています。

比較図
2026.04·ready
「MATH の Level 5 に強いモデルなら、社内のデータ分析でも詰まりにくいですね。」
MATHの見方
247
この用語の見どころ
1
役割

モデルの競技数学レベルの推論力を正答率で定量化します。

2
うれしさ

難易度 Level 別のスコアで、モデルの得意・不得意を細かく比べられます。

3
注意点

途中の計算過程ではなく、最終回答の一致だけを採点する仕様です。

4
どこで役立つか

数値計算や論理推論が求められる業務ツール選定の参考になります。

5
はじめに

GSM8K との難易度差と、スコアが何を意味するかを押さえれば十分です。

6
深掘り先

GSM8K、AIME、Thinking モデル

非エンジニアのつまずき
  • Level 5 が他ベンチマークでどの位置かイメージしにくいです。
私のコメント
  • 第一印象:今回初めて知りました
  • 良い点:段階別なので 1 つで能力を幅広く測れるのが良いです
  • ダメな点:難易度の感覚がつかみにくいです
  • 誰向けか:結構マニアックな層向けかなと思います
開発フローでの位置
モデル選定
難易度確認
比較評価
採用判断
関連用語
参考 (未記入) checked —
E-24·benchmark
バイブコーディング図鑑