LLM が多段階の算数推論を正しく追えるかを測るベンチマークです。「リンゴが…」型の文章題を通じて、計算ステップを 1 つずつ積み上げる能力を数値化します。
LLM が多段階の算数推論を正しく追えるかを測るベンチマークです。「リンゴが…」型の文章題を通じて、計算ステップを 1 つずつ積み上げる能力を数値化します。
モデル発表時の性能比較表で必ず登場します。MMLU と並ぶ定番ベンチですが、主要モデルが満点近い水準に達し、近年は「歴史的ベンチ」として位置づけられています。
LLM の多段階算数推論力をスコア化する評価データセットです。
問題が平易なので、スコアの意味が非エンジニアにも直感的に理解できます。
主要モデルが飽和済みのため、単独では現行モデルの差別化に使いにくいです。
モデル選定時にベンチ表を読む場面で、基準線として役立ちます。
8K は 8,000 件規模のデータ数を指し、テキスト長とは無関係と押さえてください。
MATH(E-24)、AIME(E-25)、Chain of Thought(G-18)