Meta(C-4)と Hugging Face(C-7)が 2023 年末に公開した、AI エージェントの実用能力を測る問題集です。Web 検索・PDF 読解・画像理解など複数ツール協調が要る 466 問・Level 1〜3 です。
Meta(C-4)と Hugging Face(C-7)が 2023 年末に公開した、AI エージェントの実用能力を測る問題集です。Web 検索・PDF 読解・画像理解など複数ツール協調が要る 466 問・Level 1〜3 です。
AI エージェントのリリース記事や研究論文で「GAIA スコア」として登場します。公開時は GPT-4 約 15%・人間約 92%、2025 年には上位勢が 60% 台に到達しています。
AI エージェントの実世界タスク処理能力を測る問題集です。
人間基準との差が数値で見えるため、進化の速さを実感できます。
同名の別プロジェクトが複数あり、本書では Meta + HF 版を指します。
エージェント導入の判断材料として比較評価の場面で参照されます。
Level と問題数(466 問)と人間スコア(約 92%)が理解の起点です。
WebArena、AgentBench、AGI