ベンチマーク

GPQA

ジーピーキューエー

Graduate-Level Google-Proof Q&A の略。大学院レベルの科学問題で AI の推論力を測るベンチマークです。

体験区分：調査ベース推奨読者レベル：Level 2

生物・物理・化学の難問 448 問を AI に解かせ、正答率で採点します。問題は PhD（博士）保持者でも 65% 程度しか正解できないよう設計されており、広く浅い知識ではなく深い推論力を測ります。

o1 や o3 などの reasoning（推論特化）モデルが台頭したころ、その実力を示す指標として注目されました。モデル発表資料や論文比較表で GPQA Diamond（最難サブセット）のスコアを見ることが多いです。

イメージ

開発フローでの位置

新モデル発表

→

スコアの文脈を確認

→

自分の用途と照合

→

他指標と併用

2026.04·ready

「GPQA Diamond は PhD レベルの深い推論を測るので、reasoning モデルの比較に使えます。」

GPQAの見方

243

この用語の見どころ

役割

AI の深い専門推論力を科学難問で測る指標です。

うれしさ

Google 検索で解けない問題設計なので、丸暗記対策が効きません。

注意点

科学分野特化のため、コードや日常タスクの実力とは別物です。

どこで役立つか

reasoning モデル同士の比較や選定の判断材料として。

はじめに

Diamond サブセットが標準指標で PhD 正答率 65% が比較の基準です。

深掘り先

MMLU-Pro、o1、arXiv:2311.12022

非エンジニアのつまずき

私のコメント