id: E-26(誌面表示: E-26) · 物理ページ: 250–251(pages=2) · category: benchmark · figure_type: comparison · status: ready · evaluation_date: 2026-04-30
tagline 35/25-45何を 65/60-200どこで 79/60-200会話例 46/25-50見1 30/15-40見2 35/15-40見3 41/15-40 ↑1見4 31/15-40見5 38/15-40見6 26/15-50
← E-25 AIME 目次 E-27 IQ Bench →
ベンチマーク
250

Humanity's Last Exam

ヒューマニティーズ ラスト エグザム
略称 HLE。専門家が作れる最難レベルを集めた学術総合ベンチマークです。
体験区分:調査ベース 推奨読者レベル:Level 2-3

何をしてくれるか

2025 年 1 月に公開された 3,000 問のテスト群です。数学・物理・人文など 100 以上の分野を横断し、AI の総合的な学力を測ります。

どこで出会うか

AI モデルの比較記事でスコアが引用されます。公開当初は正答率 10% 未満が多く、o3 や Gemini 2.5 Pro が 30% 台に達し進歩の指標として注目されています。

比較図
2026.04·ready
「Claude 4.5 が HLE で 30% 超え、Thinking モデルの進化が見えてきましたね。」
Humanity's Last Examの見方
251
この用語の見どころ
1
役割

100 以上の学術分野を横断して AI の総合学力を測る指標です。

2
うれしさ

「満点が遠い」設計なので、しばらくモデル進化の物差しとして機能します。

3
注意点

コーディング実務への直結度は低く、GPQA や SWE-Bench と用途が異なります。

4
どこで役立つか

AGI の到達距離を推し量る議論や、モデル選定の参考情報として。

5
はじめに

公開時スコア(GPT-4o ≈ 3%)と現状の変化幅を押さえると文脈が見えます。

6
深掘り先

GPQA、SWE-Bench Verified、AGI

非エンジニアのつまずき
  • 博士課程レベルの問題があらゆる分野から集められていると聞くと、響きとして「すごい」と感じます。
私のコメント
  • 第一印象:名前がかっこいいです
  • 良い点:最難ベンチの一つで、フロンティアモデルの性能差を測る指標として良さそうです。
  • ダメな点:低性能モデルは判別できず、突破されたら人類が勝てる領域はほぼ残りません。
  • 誰向けか:最上位モデルの性能を手っ取り早く評価したい人向けです。
開発フローでの位置
モデル選定の情報収集
ベンチマーク読み解き
業界動向のウォッチ
モデル更新の判断材料
関連用語
参考 (未記入) checked —
E-26·benchmark
バイブコーディング図鑑