AI Navigate

APEX-Searcher: エージェント的な計画と実行を通じてLLMsの検索能力を強化する

arXiv cs.CL / 2026/3/17

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • APEX-Searcher は、LLM の検索プロセスを計画と実行の二段階に分離するエージェント的フレームワークとして提案され、マルチホップ検索と推論を向上させる。
  • 計画段階は分解に特化した報酬を用いた強化学習で戦略的タスク分解を最適化し、実行段階は高品質なマルチホップ軌跡でファインチューニングして反復的なサブタスクの実行を改善する。
  • 本手法はエンドツーエンドの強化学習における曖昧な検索経路と希薄な報酬という課題に対処し、より正確な検索とより良い問題解決を目指す。
  • 複数のベンチマークでの実験により、マルチホップ検索を組み込んだ生成とタスク計画の性能の双方で顕著な改善が報告された。

要約: 検索強化生成(RAG)は、大規模言語モデル(LLMs)に基づく、さまざまな領域の応用において外部知識を取得・活用するための重要なアプローチとして機能します。複雑なマルチホップの質問に直面すると、単回の検索だけでは正確な推論と問題解決に不十分であることが多いです。複雑なタスクの検索能力を高めるために、既存の多くの研究は、エンドツーエンド訓練を介して推論プロセスと多回の反復検索を統合します。これらのアプローチは問題解決能力を大幅に向上させる一方で、タスク推論とモデル訓練には依然として課題が残っており、特にあいまいな検索実行経路とエンドツーエンド強化学習(RL)プロセスにおける報酬の希薄さが、誤った検索結果と性能低下を招く原因となります。これらの問題に対処するため、本論文では、LLMの検索能力を拡張する新しいエージェント型計画と実行(Agentic Planning and Execution)フレームワークであるAPEX-Searcherを提案します。具体的には、検索プロセスを計画と実行に分離する2段階のエージェント型フレームワークを導入します: 最初に、分解特化の報酬を用いた強化学習(RL)を用いて戦略的計画を最適化します。サブタスク分解を前提として、高品質なマルチホップの軌跡に対して教師あり微調整を適用し、モデルに堅牢な反復的サブタスク実行能力を備えさせます。広範な実験により、提案されたフレームワークが複数のベンチマークにおいて、マルチホップRAGとタスク計画の両方の性能を大幅に向上させることを示しています。