Cycle-Consistent Search:質問再構成可能性を代理報酬として用いる検索エージェントの学習

arXiv cs.AI / 2026/4/15

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、サイクル整合性の考え方を用いた、ゴールド(正解)による監督なしの強化学習フレームワーク「Cycle-Consistent Search(CCS)」を提案する。検索エージェントを学習するために用いられる。
  • CCSは、最適な探索軌跡が、質問意図の情報を保持する表現として機能し、それにより質問の再構成を代理報酬として可能にする、という仮説に依拠している。
  • 素朴なサイクル目的が語彙的な近道を悪用することを防ぐために、本手法は最終回答を除外することや、固有表現認識(NER)によって質問をマスクするなどの情報ボトルネックを用いる。
  • 質問応答ベンチマークでの実験により、CCSは教師ありベースラインと同等の性能を達成し、ゴールド監督を用いない先行手法を上回ることが示されている。
  • 全体としてCCSは、正解データによる監督が利用できない場合における検索エージェントのための、スケーラブルな学習パラダイムとして位置づけられる。