TAMTRL:長文圧縮におけるマルチターン強化学習のための教師整合型報酬再形成

arXiv cs.CL / 2026/3/24

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、長文圧縮におけるマルチターン強化学習での時間的クレジット割り当て問題を扱っている。具体的には、各メモリ更新ステップごとではなく最終的な結果にのみ監督(スーパービジョン)が与えられる。
  • 関連ドキュメントを、モデル入力の各ターンに整合する教師信号として用いることで報酬を再形成する手法TAMTRLを提案し、ターンごとのきめ細かな学習信号を提供する。
  • TAMTRLは自己教師ありの形で、正規化された確率を用いて報酬を割り当てる。LLM-as-a-judgeやプロセス報酬モデルといった先行手法で見られる計算オーバーヘッドと推定ノイズの双方を低減することを目指す。
  • 複数のモデル規模と7つの長文コンテキストベンチマークにまたがる実験で、TAMTRLが強力なベースラインを一貫して上回り、長文処理における有効性が裏付けられている。
  • 著者らは、提案手法の再現および拡張のために、公的なリポジトリへのリンクを通じてコードを公開している。

Abstract

大規模言語モデル(LLM)の急速な進歩により、幅広いタスクにわたって目覚ましい性能向上がもたらされました。しかし、モデルのコンテキストウィンドウ上限を超える長文を扱う場合、コンテキスト全体を1回のパスで処理することはできないため、チャンク単位の処理が必要になります。これには、異なるチャンクを読み取り、メモリを更新するための複数のターンが必要です。ただし、通常は最終結果のみが教師信号として与えられるため、多ターン学習設定において各ターンで行われるメモリ更新の品質を評価することが難しくなります。これにより、時間的クレジット割当(temporal credit assignment)の課題が生じます。LLM-as-a-judgeやプロセス報酬モデルのような既存手法では、大きな計算オーバーヘッドが発生し、さらに推定のノイズにも悩まされます。多ターン・メモリ学習におけるクレジット割当問題により適切に対処するために、我々は、多ターン強化学習(TAMTRL: Teacher-Aligned Reward Reshaping for Multi-Turn Reinforcement Learning)における教師整合型報酬リシェーピングを提案します。TAMTRLは、モデル入力の各ターンに対応づけることで、関連文書を教師信号として活用し、自己教師ありの方法で正規化された確率を通じて報酬を割り当てます。これにより、各メモリ更新に対するきめ細かな学習信号が得られ、長い文脈の処理が改善されます。7つの長文コンテキスト・ベンチマークにおいて、さまざまな規模の複数のモデルで行った実験では、TAMTRLが一貫して強力なベースラインを上回り、その有効性が示されました。コードは https://anonymous.4open.science/r/TAMTRL-F1F8 で公開しています。