PRAISE：エージェント型探索トレーニングにおける接頭辞ベースのロールアウト再利用

arXiv cs.AI / 2026/4/7

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、マルチホップQAのような複数ターンの「検索＋推論」タスクにおいて、報酬の疎（sparsity）と、長期（long-horizon）RLロールアウトの非効率な利用を解決するエージェント型探索のためのトレーニングフレームワーク「PRAISE」を提案する。
PRAISEは、異なるターンでの接頭辞（prefix）状態を抽出し、それらの接頭辞から中間回答を生成し、それを用いて追加の学習用トラジェクトリを作成することで、部分的な探索軌跡を再利用する。
接頭辞間での性能を比較することで、ステップ単位の報酬を導出し、最終回答の監督（supervision）だけに頼るよりも、クレジット割り当て（credit assignment）を改善する。
単一の共有モデルによって探索方策の学習と接頭辞の回答評価を共同最適化し、追加の人手による注釈や別個の報酬モデルを不要にする。
マルチホップQAベンチマークでの実験では、強力なベースラインに対して一貫した改善が報告されており、データ効率と学習シグナルの向上を示している。

日経XTECH

日経XTECH

Dev.to

Reddit r/LocalLLaMA

Dev.to