ベンチマーク

MATH

マス

競技数学レベルの推論を測るベンチマークです。難問 12,500 問でモデルの数学力を評価します。

体験区分：調査ベース推奨読者レベル：Level 3-5

2021 年公開の数学ベンチマークです。代数・幾何・数論・確率など 7 分類 12,500 問を収録し、最終回答を照合して正答率を算出します。

新モデルの発表資料で「MATH スコア 90%超」のように登場します。GSM8K（小学校算数レベル）より格段に難しく、Level 5 はいまも伸び代が残っています。

イメージ

開発フローでの位置

モデル選定

→

難易度確認

→

比較評価

→

採用判断

2026.04·ready

「MATH の Level 5 に強いモデルなら、社内のデータ分析でも詰まりにくいですね。」

MATHの見方

247

この用語の見どころ

役割

モデルの競技数学レベルの推論力を正答率で定量化します。

うれしさ

難易度 Level 別のスコアで、モデルの得意・不得意を細かく比べられます。

注意点

途中の計算過程ではなく、最終回答の一致だけを採点する仕様です。

どこで役立つか

数値計算や論理推論が求められる業務ツール選定の参考になります。

はじめに

GSM8K との難易度差と、スコアが何を意味するかを押さえれば十分です。

深掘り先

GSM8K、AIME、Thinking モデル

非エンジニアのつまずき

私のコメント