TAMTRL:長文圧縮におけるマルチターン強化学習のための教師整合型報酬再形成
arXiv cs.CL / 2026/3/24
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、長文圧縮におけるマルチターン強化学習での時間的クレジット割り当て問題を扱っている。具体的には、各メモリ更新ステップごとではなく最終的な結果にのみ監督(スーパービジョン)が与えられる。
- 関連ドキュメントを、モデル入力の各ターンに整合する教師信号として用いることで報酬を再形成する手法TAMTRLを提案し、ターンごとのきめ細かな学習信号を提供する。
- TAMTRLは自己教師ありの形で、正規化された確率を用いて報酬を割り当てる。LLM-as-a-judgeやプロセス報酬モデルといった先行手法で見られる計算オーバーヘッドと推定ノイズの双方を低減することを目指す。
- 複数のモデル規模と7つの長文コンテキストベンチマークにまたがる実験で、TAMTRLが強力なベースラインを一貫して上回り、長文処理における有効性が裏付けられている。
- 著者らは、提案手法の再現および拡張のために、公的なリポジトリへのリンクを通じてコードを公開している。
