2021 年公開の数学ベンチマークです。代数・幾何・数論・確率など 7 分類 12,500 問を収録し、最終回答を照合して正答率を算出します。
2021 年公開の数学ベンチマークです。代数・幾何・数論・確率など 7 分類 12,500 問を収録し、最終回答を照合して正答率を算出します。
新モデルの発表資料で「MATH スコア 90%超」のように登場します。GSM8K(小学校算数レベル)より格段に難しく、Level 5 はいまも伸び代が残っています。
モデルの競技数学レベルの推論力を正答率で定量化します。
難易度 Level 別のスコアで、モデルの得意・不得意を細かく比べられます。
途中の計算過程ではなく、最終回答の一致だけを採点する仕様です。
数値計算や論理推論が求められる業務ツール選定の参考になります。
GSM8K との難易度差と、スコアが何を意味するかを押さえれば十分です。
GSM8K、AIME、Thinking モデル