ベンチマーク

AIME

エーアイエムイー

American Invitational Mathematics Examination の略。競技数学級の推論力を測ります。

体験区分：調査ベース推奨読者レベル：Level 3-5

15 問の整数解（0〜999）形式で、LLM の深い思考力を数値化します。GSM8K が頭打ちになった後、推論強化系モデルの実力差を測る指標として定着しました。

最新世代モデルの性能比較で登場します。「AIME 2024 で何点か」という形で Thinking モデル（G-14）の実力指標として業界レポートや SNS に出てきます。

比較図

2026.04·ready

「AIME 2024 で o3 系が満点近かった、と Twitter で話題になっていましたね。」

AIMEの見方

249

この用語の見どころ

役割

Thinking モデルの推論深度を測る競技数学ベンチマークです。

うれしさ

整数解のみなので採点が機械的で、スコア比較が容易です。

注意点

年度ごとに問題が変わるため、異なる年度同士の比較は不公平になります。

どこで役立つか

推論強化系モデルの世代比較や購入判断の参考になります。

はじめに

GSM8K が頭打ちになった先にある、上位難度指標として把握しましょう。

深掘り先

GSM8K, MATH, Thinking モデル

非エンジニアのつまずき

私のコメント

開発フローでの位置

難度の把握

→

年度の統一

→

スコアの読み取り

→

モデル選定の参考