ベンチマーク

GSM8K

ジーエスエムエイトケー

Grade School Math 8K の略。小学校〜中学校レベルの算数文章題を 8,500 問集めた LLM 評価用ベンチマークです。

体験区分：調査ベース推奨読者レベル：Level 3-4

LLM が多段階の算数推論を正しく追えるかを測るベンチマークです。「リンゴが…」型の文章題を通じて、計算ステップを 1 つずつ積み上げる能力を数値化します。

モデル発表時の性能比較表で必ず登場します。MMLU と並ぶ定番ベンチですが、主要モデルが満点近い水準に達し、近年は「歴史的ベンチ」として位置づけられています。

イメージ

開発フローでの位置

モデル選定

→

性能把握

→

ベンチ比較

→

深掘り判断

2026.04·ready

「GSM8K はもう各モデルが頭打ちなので、最近は MATH や AIME で比較しています。」

GSM8Kの見方

245

この用語の見どころ

役割

LLM の多段階算数推論力をスコア化する評価データセットです。

うれしさ

問題が平易なので、スコアの意味が非エンジニアにも直感的に理解できます。

注意点

主要モデルが飽和済みのため、単独では現行モデルの差別化に使いにくいです。

どこで役立つか

モデル選定時にベンチ表を読む場面で、基準線として役立ちます。

はじめに

8K は 8,000 件規模のデータ数を指し、テキスト長とは無関係と押さえてください。

深掘り先

MATH（E-24）、AIME（E-25）、Chain of Thought（G-18）

非エンジニアのつまずき

私のコメント