意図からエビデンスへ:深層リサーチエージェントの構造評価のためのカテゴリ論的アプローチ
arXiv cs.LG / 2026/3/27
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、現在の深層リサーチエージェント(DRA)の評価が、エージェント挙動を厳密にモデル化できていないことに加え、とりわけ長期ホライズンでの合成や曖昧性の扱いにおいて、場当たり的なベンチマークに依存していると主張する。
- カテゴリ論に基づく枠組みを提案し、DRAのワークフローを、構造を保存する写像(関手)として表現することで、より形式的な構造評価を可能にする。
- 著者らは、296問からなる「メカニズムを意識した」ベンチマークを導入し、4つの解釈可能なストレステスト軸(逐次的な接続性、V構造の交差検証、位相順序付け、Yoneda Probeによる存在論的反証)に基づいて評価を行う。
- 主要11モデルをテストした結果、性能のベースラインは一貫して低く、最先端でも平均精度は19.9%にとどまる。さらに能力の分断が見られ、エージェントは一部の構造検証タスクではうまく機能するものの、多段(マルチホップ)にまたがる構造的合成では大半が失敗する。
- タスク間での大きな性能ばらつきは、既存システムが複雑な構造情報に対する体系的理解ではなく、脆いヒューリスティックに依存していることを示唆する。
広告




