DR-Venus：わずか1万件のオープンデータで実現する、エッジ規模のフロンティア級ディープ・リサーチ・エージェントへ

arXiv cs.LG / 2026/4/23

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

共有:

要点

本論文は、コスト・低遅延・プライバシーといった要件に合うよう、オープンデータのみを用いてエッジ規模で動作する「フロンティア級」の4Bパラメータ・ディープリサーチ・エージェントDR-Venusを提案します。
トレーニングは2段階で設計され、まずエージェント型SFT（教師あり微調整）で基本的なエージェント能力を獲得し、厳密なデータクリーニングと長いホライゾンの軌跡のリサンプリングによってデータ品質とデータ活用を高めます。
次に、エージェント型強化学習により長ホライゾンのディープリサーチ課題における実行の信頼性を向上させ、IGPOを土台に情報獲得に基づくターン単位の報酬と、フォーマットを意識した正則化を設計することで、監督密度とクレジット割り当てを改善します。
約1万件のオープンデータに基づくにもかかわらず、DR-Venus-4Bは複数のディープリサーチ・ベンチマークで9Bパラメータまでの先行エージェントモデルを上回り、さらに30B級のはるかに大きなモデルに対するギャップを縮めます。
著者らは、エッジ規模のディープリサーチ・エージェントに関する再現可能な研究を支援するために、モデル、コード、主要な学習レシピを公開します。

要旨: 小型言語モデルに基づくエッジ規模のディープリサーチエージェントは、コスト、レイテンシ、プライバシー面での利点により、現実世界への展開にとって魅力的である。本研究では、データの品質とデータ利用の両方を改善することで、限られたオープンデータの下で強力な小型ディープリサーチエージェントを訓練する方法を検討する。本稿では、エッジ規模の展開のために構築された、オープンデータのみで作られた最先端の4BディープリサーチエージェントDR-Venusを提示する。訓練手順は2段階からなる。第1段階では、エージェント指向の教師ありファインチューニング（SFT）を用いて基本的なエージェント能力を確立する。厳格なデータクリーニングに加え、長期ホライズンの軌跡をリサンプリングしてデータの品質と利用率を高める。第2段階では、エージェント指向の強化学習（RL）を適用し、長期ホライズンのディープリサーチ課題における実行の信頼性をさらに向上させる。この設定で小型エージェントに対してRLを有効にするために、IGPOを土台として情報利得に基づくターン単位の報酬と、フォーマットを考慮した正則化を設計し、それにより監督（スーパービジョン）の密度とターン単位のクレジット割当を高める。約10Kのオープンデータのみを用いて完全に構築されたDR-Venus-4Bは、複数のディープリサーチベンチマークにおいて、9Bパラメータの従来のエージェント指向モデルを大幅に上回り、さらに、はるかに大きい30B級システムとのギャップも縮める。追加分析により、4Bエージェントはすでに驚くほど強い性能ポテンシャルを持つことが示され、この設定における小型モデルの展開可能性と、テスト時スケーリングの価値の両方を裏付けている。再現可能なエッジ規模のディープリサーチエージェントに関する研究を支えるため、我々はモデル、コード、主要な手順を公開する。