ベンチマーク

Humanity's Last Exam

ヒューマニティーズラストエグザム

略称 HLE。専門家が作れる最難レベルを集めた学術総合ベンチマークです。

体験区分：調査ベース推奨読者レベル：Level 2-3

2025 年 1 月に公開された 3,000 問のテスト群です。数学・物理・人文など 100 以上の分野を横断し、AI の総合的な学力を測ります。

AI モデルの比較記事でスコアが引用されます。公開当初は正答率 10% 未満が多く、o3 や Gemini 2.5 Pro が 30% 台に達し進歩の指標として注目されています。

イメージ

開発フローでの位置

モデル選定の情報収集

→

ベンチマーク読み解き

→

業界動向のウォッチ

→

モデル更新の判断材料

2026.04·ready

「Claude 4.5 が HLE で 30% 超え、Thinking モデルの進化が見えてきましたね。」

Humanity's Last Examの見方

251

この用語の見どころ

役割

100 以上の学術分野を横断して AI の総合学力を測る指標です。

うれしさ

「満点が遠い」設計なので、しばらくモデル進化の物差しとして機能します。

注意点

コーディング実務への直結度は低く、GPQA や SWE-Bench と用途が異なります。

どこで役立つか

AGI の到達距離を推し量る議論や、モデル選定の参考情報として。

はじめに

公開時スコア（GPT-4o ≈ 3%）と現状の変化幅を押さえると文脈が見えます。

深掘り先

GPQA、SWE-Bench Verified、AGI

非エンジニアのつまずき

私のコメント