id: E-22(誌面表示: E-22) · 物理ページ: 242–243(pages=2) · category: benchmark · figure_type: structure · status: ready · evaluation_date: 2026-04-29
tagline 62/25-45 ↑17何を 92/60-200どこで 103/60-200会話例 52/25-50 ↑2見1 23/15-40見2 33/15-40見3 29/15-40見4 29/15-40見5 36/15-40見6 28/15-50
← E-21 MMLU-Pro 目次 E-23 GSM8K →
ベンチマーク
242

GPQA

ジーピーキューエー
Graduate-Level Google-Proof Q&A の略。大学院レベルの科学問題で AI の推論力を測るベンチマークです。
体験区分:調査ベース 推奨読者レベル:Level 2

何をしてくれるか

生物・物理・化学の難問 448 問を AI に解かせ、正答率で採点します。問題は PhD(博士)保持者でも 65% 程度しか正解できないよう設計されており、広く浅い知識ではなく深い推論力を測ります。

どこで出会うか

o1 や o3 などの reasoning(推論特化)モデルが台頭したころ、その実力を示す指標として注目されました。モデル発表資料や論文比較表で GPQA Diamond(最難サブセット)のスコアを見ることが多いです。

構造図
2026.04·ready
「GPQA Diamond は PhD レベルの深い推論を測るので、reasoning モデルの比較に使えます。」
GPQAの見方
243
この用語の見どころ
1
役割

AI の深い専門推論力を科学難問で測る指標です。

2
うれしさ

Google 検索で解けない問題設計なので、丸暗記対策が効きません。

3
注意点

科学分野特化のため、コードや日常タスクの実力とは別物です。

4
どこで役立つか

reasoning モデル同士の比較や選定の判断材料として。

5
はじめに

Diamond サブセットが標準指標で PhD 正答率 65% が比較の基準です。

6
深掘り先

MMLU-Pro、o1、arXiv:2311.12022

非エンジニアのつまずき
  • かなり馴染みの薄いものだと思います
  • 博士で 65% と言われても、その凄さは博士でないと分かりません
私のコメント
  • 第一印象:今回初めて見ました
  • 良い点:人間のすごい人を基準にしつつ、事前学習で取り込めない設計にしているのが面白いです
  • ダメな点:最適化が進むとベンチマーク偏重のような歪みが出やすそうです
  • 誰向けか:モデルを評価したい人向けです
開発フローでの位置
新モデル発表
スコアの文脈を確認
自分の用途と照合
他指標と併用
関連用語
参考 github.com/idavidrein/gpqa checked 2026-04-29
E-22·benchmark
バイブコーディング図鑑