意図からエビデンスへ：深層リサーチエージェントの構造評価のためのカテゴリ論的アプローチ

arXiv cs.LG / 2026/3/27

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、現在の深層リサーチエージェント（DRA）の評価が、エージェント挙動を厳密にモデル化できていないことに加え、とりわけ長期ホライズンでの合成や曖昧性の扱いにおいて、場当たり的なベンチマークに依存していると主張する。
カテゴリ論に基づく枠組みを提案し、DRAのワークフローを、構造を保存する写像（関手）として表現することで、より形式的な構造評価を可能にする。
著者らは、296問からなる「メカニズムを意識した」ベンチマークを導入し、4つの解釈可能なストレステスト軸（逐次的な接続性、V構造の交差検証、位相順序付け、Yoneda Probeによる存在論的反証）に基づいて評価を行う。
主要11モデルをテストした結果、性能のベースラインは一貫して低く、最先端でも平均精度は19.9%にとどまる。さらに能力の分断が見られ、エージェントは一部の構造検証タスクではうまく機能するものの、多段（マルチホップ）にまたがる構造的合成では大半が失敗する。
タスク間での大きな性能ばらつきは、既存システムが複雑な構造情報に対する体系的理解ではなく、脆いヒューリスティックに依存していることを示唆する。

Abstract

複雑な情報統合のための有望なパラダイムとして、深層リサーチエージェント（DRA）が登場している一方で、その評価はアドホックな経験的ベンチマークに制約され続けています。これらのヒューリスティック手法は、エージェントの振る舞いを厳密にモデル化しておらず、長期的な統合や曖昧さの解消に対して十分にストレステストを行えていません。このギャップを埋めるために、我々はカテゴリー理論の観点からDRAの振る舞いを形式化し、深層リサーチのワークフローを、構造を保存する写像（函手）の合成としてモデル化します。この理論的枠組みに基づき、296問から成る新しいメカニズム対応ベンチマークを提案します。このベンチマークは、4つの解釈可能な軸に沿ってエージェントをストレステストするよう設計されています。それらは、連続的な接続性チェーンの走査、V構造プルバック内での交差の検証、取得した部分構造に対する位相順序の課与、そしてYoneda Probeによる存在論的反証です。我々の11の主要モデルに対する厳密な評価の結果、持続的に低いベースラインが示され、最先端でも平均精度はわずか19.9\%にとどまり、形式的な構造ストレステストの難しさが明らかになりました。さらに、我々の発見は、現在のAI能力における顕著な二分法を明らかにします。高度な深層リサーチ・パイプラインは、動的な位相再順序付けを再定義することに成功し、また堅牢な存在論的検証を示しています――幻覚された前提を反証する点で、純粋な推論モデルと一致するほどです――しかし、多くの場合でマルチホップの構造統合でほぼ普遍的に崩壊します。決定的に重要なのは、タスク間での大規模な性能ばらつきが、体系的な理解ではなく脆いヒューリスティックへの依存が残っていることを示している点です。結論として、本研究は、トップクラスの自律エージェントが検索と推論を自然に統合できるようになった一方で、複雑な構造情報に対する一般化された習熟を達成することは、依然として極めて困難な未解決課題であることを示します。\footnote{我々の実装は https://github.com/tzq1999/CDR にて公開される予定です。