ベンチマーク

IQ Bench

アイキューベンチ

LLM の「パターン推論力」を測るベンチマーク群の総称です。知識暗記ではなく未知の図形や規則を読む力を問います。

体験区分：調査ベース推奨読者レベル：Level 3-5

Raven's Progressive Matrices（行列推論テスト）風の課題で、LLM が図形の続きや抽象ルールを推測できるかを数値化します。知識ベンチで高得点のモデルでも、IQ 換算で人間平均前後に収まる傾向です。

AI 研究者や業界メディアが「LLM はテスト勉強型」と議論する場面で登場します。Yann LeCun（C-56）が LLM の限界を語るときや、AGI（J-1）到達の議論で引かれます。

イメージ

開発フローでの位置

モデル選定

→

能力評価

→

弱点把握

→

議論参照

2026.04·ready

「IQ Bench では、知識ベンチで強いモデルでも人間平均レベルが多いそうですね。」

IQ Benchの見方

253

この用語の見どころ

役割

知識ではなく未知パターンの推論力を測る指標です。

うれしさ

LLM の「暗記以外の弱点」を可視化できます。

注意点

単一の標準ベンチはなく、複数の IQ 系テストの総称です。

どこで役立つか

AGI 到達議論やモデル選定の比較材料になります。

はじめに

LLM が暗記型で推論が弱い点を起点にすると入りやすいです。

深掘り先

AGI、ARC-AGI、GPQA

非エンジニアのつまずき

私のコメント