id: E-25(誌面表示: E-25) · 物理ページ: 248–249(pages=2) · category: benchmark · figure_type: comparison · status: ready · evaluation_date: 2026-04-30
tagline 60/25-45 ↑15何を 77/60-200どこで 80/60-200会話例 43/25-50見1 32/15-40見2 27/15-40見3 34/15-40見4 27/15-40見5 35/15-40見6 22/15-50
← E-24 MATH 目次 E-26 Humanity's Last Exam →
ベンチマーク
248

AIME

エーアイエムイー
American Invitational Mathematics Examination の略。競技数学級の推論力を測ります。
体験区分:調査ベース 推奨読者レベル:Level 3-5

何をしてくれるか

15 問の整数解(0〜999)形式で、LLM の深い思考力を数値化します。GSM8K が頭打ちになった後、推論強化系モデルの実力差を測る指標として定着しました。

どこで出会うか

最新世代モデルの性能比較で登場します。「AIME 2024 で何点か」という形で Thinking モデル(G-14)の実力指標として業界レポートや SNS に出てきます。

比較図
2026.04·ready
「AIME 2024 で o3 系が満点近かった、と Twitter で話題になっていましたね。」
AIMEの見方
249
この用語の見どころ
1
役割

Thinking モデルの推論深度を測る競技数学ベンチマークです。

2
うれしさ

整数解のみなので採点が機械的で、スコア比較が容易です。

3
注意点

年度ごとに問題が変わるため、異なる年度同士の比較は不公平になります。

4
どこで役立つか

推論強化系モデルの世代比較や購入判断の参考になります。

5
はじめに

GSM8K が頭打ちになった先にある、上位難度指標として把握しましょう。

6
深掘り先

GSM8K, MATH, Thinking モデル

非エンジニアのつまずき
  • 初めて知りましたが、問題例を見ないとレベル感が想像できません。
私のコメント
  • 第一印象:今回初めて知りました。
  • 良い点:人間が理解できる問題で能力を測れる点が良いです。
  • ダメな点:現行モデルでは差がつきにくくなってきています。
  • 誰向けか:ベンチマーク変遷を調べたい研究者寄りの人向けです。
開発フローでの位置
難度の把握
年度の統一
スコアの読み取り
モデル選定の参考
関連用語
参考 (未記入) checked —
E-25·benchmark
バイブコーディング図鑑