要旨: エージェント型基盤モデルが進化し続ける中で、縦型領域における性能をさらに向上させるにはどうすればよいかが重要な課題となっています。そこで本研究では、強力なエージェント型基盤モデルであるTongyi DeepResearchを基盤として、主に中国の医療向けディープサーチのシナリオに焦点を当て、医療のマルチホップデータ構築、学習戦略、評価ベンチマークにまたがる完全なパイプラインアプローチを体系的に探究することで、縦型領域におけるその性能の上限をさらに押し上げ、評価するQuarkMedSearchを提案します。具体的には、データ合成に関しては、医療領域におけるディープサーチの学習データが希少であるという課題に対処するため、大規模な医療知識グラフとリアルタイムのオンライン探索を組み合わせることで、長期的な医療ディープサーチの学習データを構築します。事後学習では、ディープサーチに必要な計画、ツール呼び出し、そしてリフレクション能力を段階的に高める、二段階のSFT(教師あり微調整)とRL(強化学習)の学習戦略を採用しつつ、探索効率を維持します。評価では、医療専門家と協力して、厳密な手動検証によりQuarkMedSearch Benchmarkを構築します。実験結果は、QuarkMedSearchがQuarkMedSearch Benchmarkにおいて、同程度の規模のオープンソースモデルの中で最先端の性能を達成していることを示すと同時に、一般ベンチマークでも強い競争力を維持していることを明らかにしています。
QuarkMedSearch:医療インテリジェンスを探索するための長期ホライゾン・ディープサーチエージェント
arXiv cs.AI / 2026/4/15
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文では、Tongyi DeepResearch を基盤とした中国の医療インテリジェンス課題向けに設計された、長期ホライゾンかつエージェント型のディープサーチモデルである QuarkMedSearch を提案する。
- 医療のマルチホップデータ構築からなり、二段階の学習(SFT の後に RL)と、ベンチマークに基づく評価を含むエンドツーエンドのパイプラインを提示する。
- 医療分野のディープサーチデータの希少性を緩和するために、この手法は、大規模医療知識グラフとリアルタイムのオンライン探索を組み合わせ、長期ホライゾンの学習用軌跡を生成する。
- 学習は、探索効率を維持しつつ、計画立案・ツール利用・省察を段階的に改善するよう設計されている。
- QuarkMedSearch ベンチマークは医療専門家と手動検証により作成されており、その結果は、同程度の規模のオープンソースモデル群において最先端の性能を示しつつ、一般ベンチマークでも競争力を保っていることを示している。




