概要: 本稿では、マルチモーダルなファイル管理におけるエージェントの能力を評価するための新しいベンチマーク「HippoCamp」を提案します。ウェブ操作、ツール利用、ソフトウェア自動化といった汎用的な設定でのタスクに焦点を当てる既存のエージェントベンチマークとは異なり、HippoCampはユーザー中心の環境でエージェントを評価し、個々のユーザープロフィールをモデル化し、大量の個人ファイルを文脈に応じて検索して推論することを重視します。このベンチマークは、多様なモダリティにまたがる実世界のプロファイルに基づき、デバイス規模のファイルシステムを具体化します。これにより、2K以上の実世界ファイルにまたがって合計42.4GBのデータを構成します。生データの上に、検索、証拠の知覚、複数ステップにわたる推論におけるエージェントの能力を評価するために581のQAペアを構築します。きめ細かな分析を可能にするため、ステップごとの失敗診断のための、密に注釈付けされた構造化トラジェクトリを46.1K件提供します。HippoCamp上で、多様な最先端のマルチモーダル大規模言語モデル(MLLM)とエージェント型手法を幅広く評価します。包括的な実験の結果、重大な性能ギャップが明らかになりました。すなわち、最も先進的な商用モデルでさえ、ユーザープロファイリングの精度は48.3%にとどまり、特に、長い探索の地平にまたがる検索や、密な個人ファイル環境におけるクロスモーダル推論が困難です。さらに、ステップごとの失敗診断により、主なボトルネックはマルチモーダル知覚と証拠の基盤化(evidence grounding)であることが特定されます。最終的に、HippoCampは、現実的でユーザー中心の環境における現在のエージェントの重要な限界を明らかにするとともに、次世代のパーソナルAIアシスタントを開発するための堅牢な基盤を提供します。
HippoCamp:個人用PC上での文脈対応エージェントのベンチマーク
arXiv cs.AI / 2026/4/2
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- HippoCampは、個人PC上のマルチモーダルなファイル管理を対象に、文脈に基づくエージェントの能力を評価するための新しいベンチマークを提案しています。
- 実世界の多様なユーザープロファイルに基づいて、デバイス規模のファイルシステム(42.4GB、2K超のファイル)を構築し、581件のQAペアを用いて、検索・根拠の知覚・多段推論を測定します。
- さらに46.1K件のステップ単位で精密にアノテーションされた軌跡を提供し、失敗箇所をきめ細かく診断できるようにしています。
- 評価の結果、最新の商用マルチモーダル/エージェント手法でもユーザープロファイリング精度は48.3%にとどまり、長期的なリトリーバルや高密度な個人ファイル内でのクロスモーダル推論が特に苦手であることが示されています。
- 失敗診断では、マルチモーダル知覚とエビデンス(根拠)のグラウンディングが主要なボトルネックとして特定され、次世代のパーソナルAIアシスタント開発に向けた課題が明確になります。



