TIPS:検索拡張LLM向けのターン単位情報ポテンシャル報酬シェーピング

arXiv cs.AI / 2026/3/25

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、結果のみの疎なシグナルに頼るのではなく、より密なターン単位の報酬を用いて検索拡張LLMを学習するための枠組み「Turn-Level Information Potential Reward Shaping(TIPS)」を提案する。
  • TIPSは、教師モデルのもとでそれが正しい回答の可能性をどれだけ高めるかに基づいて、各推論およびツール呼び出しセグメントに報酬を割り当て、多段生成におけるクレジット割当(どの部分が結果に寄与したか)の改善を狙う。
  • ポテンシャルベースの報酬シェーピングを用いることで、この手法は標準的なRL目的関数よりも安定で、かつ方策不変性(policy-invariant)に優れた細かな指導を提供することを意図している。
  • 7つのQAベンチマークでの実験により、TIPSは学習の安定性を改善し、GRPO/PPOのベースラインを上回ることが示される。Qwen-2.5 7B Instructモデルでは、PPOに対してExact Matchが11.8%、F1が13.6%向上した。
  • 著者らは、TIPSが、ツール利用および検索拡張を伴うマルチターンLLM推論における疎報酬のクレジット割当問題に対する一般的な解決策であると主張している。

要旨: 強化学習(RL)で訓練された検索拡張型の大規模言語モデル(LLM)は、オープンドメインの質問応答(QA)において強力な成果を達成していますが、訓練は依然として大きな課題です。最適化は、報酬が疎であることや、推論とツール呼び出しにまたがるクレジット割当が難しいことから、不安定になりがちです。これに対処するために、Turn-Level Information Potential Reward Shaping(TIPS)を提案します。これはシンプルな枠組みで、教師モデルのもとで正しい回答である可能性が高まることに基づき、各「推論+ツール呼び出し」セグメントに対して、ターン単位で密な報酬を割り当てます。ポテンシャルベースの報酬シェーピングを活用することで、TIPSは、結果のみを最適化することの限界を克服する、きめ細かなかつ方策に不変な誘導を提供します。7つのQAベンチマークで評価したところ、TIPSは一貫してGRPO/PPOのベースラインを上回り、さらに訓練の安定性を大幅に向上させます。たとえば、Qwen-2.5 7B Instructモデルを用いた場合、TIPSはPPOに比べて平均Exact Matchスコアを11.8%改善し、F1を13.6%改善します。以上の結果は、ターン単位の情報ポテンシャル報酬シェーピングが、多ターンLLMの推論における疎報酬のクレジット割当問題に対して、有効で汎用的な解決策を提供することを示しています。