id: E-27(誌面表示: E-27) · 物理ページ: 252–253(pages=2) · category: benchmark · figure_type: comparison · status: ready · evaluation_date: 2026-04-30
tagline 55/25-45 ↑10何を 107/60-200どこで 88/60-200会話例 41/25-50見1 24/15-40見2 22/15-40見3 27/15-40見4 24/15-40見5 29/15-40見6 16/15-50
← E-26 Humanity's Last Exam 目次 E-30 TAU-Bench →
ベンチマーク
252

IQ Bench

アイキュー ベンチ
LLM の「パターン推論力」を測るベンチマーク群の総称です。知識暗記ではなく未知の図形や規則を読む力を問います。
体験区分:調査ベース 推奨読者レベル:Level 3-5

何をしてくれるか

Raven's Progressive Matrices(行列推論テスト)風の課題で、LLM が図形の続きや抽象ルールを推測できるかを数値化します。知識ベンチで高得点のモデルでも、IQ 換算で人間平均前後に収まる傾向です。

どこで出会うか

AI 研究者や業界メディアが「LLM はテスト勉強型」と議論する場面で登場します。Yann LeCun(C-56)が LLM の限界を語るときや、AGI(J-1)到達の議論で引かれます。

比較図
2026.04·ready
「IQ Bench では、知識ベンチで強いモデルでも人間平均レベルが多いそうですね。」
IQ Benchの見方
253
この用語の見どころ
1
役割

知識ではなく未知パターンの推論力を測る指標です。

2
うれしさ

LLM の「暗記以外の弱点」を可視化できます。

3
注意点

単一の標準ベンチはなく、複数の IQ 系テストの総称です。

4
どこで役立つか

AGI 到達議論やモデル選定の比較材料になります。

5
はじめに

LLM が暗記型で推論が弱い点を起点にすると入りやすいです。

6
深掘り先

AGI、ARC-AGI、GPQA

非エンジニアのつまずき
  • Gemini 2.5 プレビューで IQ 130 超えと出ていたのが後日 110 程度に落ち着くなど、ばらつきがあります。
私のコメント
  • 第一印象:人に説明するときにとても分かりやすく、指標としても伝わりやすいです
  • 良い点:モデルの賢さを伝えるのに、これ以上ないほど直感的に分かりやすい指標です
  • ダメな点:計測タイミングで上下しやすいうえ、フロンティアモデルだとほぼ上限に張りついてしまいます
  • 誰向けか:モデルの賢さをざっくり理解したい人向けです
開発フローでの位置
モデル選定
能力評価
弱点把握
議論参照
関連用語
参考 trackingai.org/IQ checked 2026-04-30
E-27·benchmark
バイブコーディング図鑑