生物・物理・化学の難問 448 問を AI に解かせ、正答率で採点します。問題は PhD(博士)保持者でも 65% 程度しか正解できないよう設計されており、広く浅い知識ではなく深い推論力を測ります。
生物・物理・化学の難問 448 問を AI に解かせ、正答率で採点します。問題は PhD(博士)保持者でも 65% 程度しか正解できないよう設計されており、広く浅い知識ではなく深い推論力を測ります。
o1 や o3 などの reasoning(推論特化)モデルが台頭したころ、その実力を示す指標として注目されました。モデル発表資料や論文比較表で GPQA Diamond(最難サブセット)のスコアを見ることが多いです。
AI の深い専門推論力を科学難問で測る指標です。
Google 検索で解けない問題設計なので、丸暗記対策が効きません。
科学分野特化のため、コードや日常タスクの実力とは別物です。
reasoning モデル同士の比較や選定の判断材料として。
Diamond サブセットが標準指標で PhD 正答率 65% が比較の基準です。
MMLU-Pro、o1、arXiv:2311.12022