id: E-32(誌面表示: E-32) · 物理ページ: 258–259(pages=2) · category: benchmark · figure_type: comparison · status: needs_review · evaluation_date: 2026-04-30
tagline 58/25-45 ↑13何を 105/60-200どこで 84/60-200会話例 40/25-50見1 28/15-40見2 30/15-40見3 34/15-40見4 31/15-40見5 36/15-40見6 23/15-50
← E-31 WebArena 目次 E-33 AgentBench →
ベンチマーク
258

GAIA

ガイア
General AI Assistants の略。人間が数分で解くタスクに AI がどこまで近づけるかを測るベンチマークです。
体験区分:調査ベース 推奨読者レベル:Level 3-5

何をしてくれるか

Meta(C-4)と Hugging Face(C-7)が 2023 年末に公開した、AI エージェントの実用能力を測る問題集です。Web 検索・PDF 読解・画像理解など複数ツール協調が要る 466 問・Level 1〜3 です。

どこで出会うか

AI エージェントのリリース記事や研究論文で「GAIA スコア」として登場します。公開時は GPT-4 約 15%・人間約 92%、2025 年には上位勢が 60% 台に到達しています。

比較図
2026.04·needs_review
「GAIA Level 3 で Manus が人間に迫ったニュースを社内に共有しました。」
GAIAの見方
259
この用語の見どころ
1
役割

AI エージェントの実世界タスク処理能力を測る問題集です。

2
うれしさ

人間基準との差が数値で見えるため、進化の速さを実感できます。

3
注意点

同名の別プロジェクトが複数あり、本書では Meta + HF 版を指します。

4
どこで役立つか

エージェント導入の判断材料として比較評価の場面で参照されます。

5
はじめに

Level と問題数(466 問)と人間スコア(約 92%)が理解の起点です。

6
深掘り先

WebArena、AgentBench、AGI

非エンジニアのつまずき
  • (著者記入欄・空)
私のコメント
  • 第一印象:(著者記入欄・空)
  • 良い点:(著者記入欄・空)
  • ダメな点:(著者記入欄・空)
  • 誰向けか:(著者記入欄・空)
開発フローでの位置
課題設定
ベンチ選定
評価実行
比較分析
改善反映
関連用語
E-32·benchmark
バイブコーディング図鑑