Marco DeepResearch：検証中心の設計により効率的なディープリサーチ・エージェントを実現する

arXiv cs.CL / 2026/3/31

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

Marco DeepResearch は、誤りの連鎖（エラー・プロパゲーション）を防ぐために明示的な検証を重視する、長期的でオープンエンドな調査のためのディープリサーチ・エージェントである。
各段階に検証メカニズムを組み込むことで、QAデータ合成、トラジェクトリ構築、推論時のふるまいを改善する。
テスト時のスケーリングでは、Marco DeepResearch 自身を検証器として用いることで、難しい設問に対する性能を向上させる。
BrowseComp や BrowseComp-ZH といったベンチマークでの実験により、8B スケールのディープリサーチ・エージェントを大幅に上回り、600 回のツール呼び出し予算の範囲内で 30B スケールの一部システムを超える、またはそれらに近づくことが示されている。

概要: 深層リサーチエージェントは、自律的に開かれた調査を行い、複雑な情報検索と、多様な情報源にまたがる多段階の推論を統合して、現実世界の課題を解決します。この能力を長い時間軸を持つタスクで維持するには、学習時と推論時の両方において、信頼できる検証が不可欠です。既存のパラダイムにおける主要なボトルネックは、QAデータ合成、軌道（トラジェクトリ）構築、テスト時のスケーリングにおいて、明示的な検証メカニズムが欠けていることに起因します。各段階で導入される誤りは下流へ伝播し、エージェント全体の性能を低下させます。これに対処するために、私たちは検証中心のフレームワーク設計で最適化された深層リサーチエージェントであるMarco DeepResearchを提案します。これは3つのレベルで最適化されています：
\textbf{(1)~QAデータ合成:} グラフベースおよびエージェントベースのQA合成に検証メカニズムを導入し、回答が唯一で正しいことを保証しつつ、質問の難易度を制御します；
\textbf{(2)~軌道（トラジェクトリ）構築:} 学習用の軌道に明示的な検証パターンを注入する、検証駆動型の軌道合成手法を設計します；
\textbf{(3)~テスト時のスケーリング:} 推論時にMarco DeepResearch自体を検証者として用い、難しい質問に対する性能を効果的に向上させます。大規模な実験結果により、提案するMarco DeepResearchエージェントは、BrowseCompやBrowseComp-ZHのような最も難しいベンチマークの多くにおいて、8B規模の深層リサーチエージェントを大幅に上回ることが示されます。さらに重要なのは、最大600回のツール呼び出しという予算の範囲でも、Tongyi DeepResearch-30Bのような複数の30B規模エージェントを上回る、あるいはそれらに迫ることさえできる点です。