2025 年 1 月に公開された 3,000 問のテスト群です。数学・物理・人文など 100 以上の分野を横断し、AI の総合的な学力を測ります。
2025 年 1 月に公開された 3,000 問のテスト群です。数学・物理・人文など 100 以上の分野を横断し、AI の総合的な学力を測ります。
AI モデルの比較記事でスコアが引用されます。公開当初は正答率 10% 未満が多く、o3 や Gemini 2.5 Pro が 30% 台に達し進歩の指標として注目されています。
100 以上の学術分野を横断して AI の総合学力を測る指標です。
「満点が遠い」設計なので、しばらくモデル進化の物差しとして機能します。
コーディング実務への直結度は低く、GPQA や SWE-Bench と用途が異なります。
AGI の到達距離を推し量る議論や、モデル選定の参考情報として。
公開時スコア(GPT-4o ≈ 3%)と現状の変化幅を押さえると文脈が見えます。
GPQA、SWE-Bench Verified、AGI