15 問の整数解(0〜999)形式で、LLM の深い思考力を数値化します。GSM8K が頭打ちになった後、推論強化系モデルの実力差を測る指標として定着しました。
15 問の整数解(0〜999)形式で、LLM の深い思考力を数値化します。GSM8K が頭打ちになった後、推論強化系モデルの実力差を測る指標として定着しました。
最新世代モデルの性能比較で登場します。「AIME 2024 で何点か」という形で Thinking モデル(G-14)の実力指標として業界レポートや SNS に出てきます。
Thinking モデルの推論深度を測る競技数学ベンチマークです。
整数解のみなので採点が機械的で、スコア比較が容易です。
年度ごとに問題が変わるため、異なる年度同士の比較は不公平になります。
推論強化系モデルの世代比較や購入判断の参考になります。
GSM8K が頭打ちになった先にある、上位難度指標として把握しましょう。
GSM8K, MATH, Thinking モデル