Raven's Progressive Matrices(行列推論テスト)風の課題で、LLM が図形の続きや抽象ルールを推測できるかを数値化します。知識ベンチで高得点のモデルでも、IQ 換算で人間平均前後に収まる傾向です。
Raven's Progressive Matrices(行列推論テスト)風の課題で、LLM が図形の続きや抽象ルールを推測できるかを数値化します。知識ベンチで高得点のモデルでも、IQ 換算で人間平均前後に収まる傾向です。
AI 研究者や業界メディアが「LLM はテスト勉強型」と議論する場面で登場します。Yann LeCun(C-56)が LLM の限界を語るときや、AGI(J-1)到達の議論で引かれます。
知識ではなく未知パターンの推論力を測る指標です。
LLM の「暗記以外の弱点」を可視化できます。
単一の標準ベンチはなく、複数の IQ 系テストの総称です。
AGI 到達議論やモデル選定の比較材料になります。
LLM が暗記型で推論が弱い点を起点にすると入りやすいです。
AGI、ARC-AGI、GPQA