AI Navigate

自己改善生成のためのテスト時ポリシー学習による適応的デコード

arXiv cs.CL / 2026/3/20

📰 ニュースTools & Practical UsageModels & Research

要点

  • LLMの重みを固定したまま、サンプリングパラメータを調整する軽量なテスト時ポリシーを学習する強化学習ベースのデコーダーサンプラーを導入する。
  • ポリシーはデコードを逐次意思決定として扱い、BookSum、arXiv、WikiHow の要約データセットで、Granite-3.3-2B および Qwen-2.5-0.5B のスケールで、グリーディ法および静的ベースラインに対して大幅な改善を達成する。
  • 報酬設計の実験は、長さ、カバレッジ、反復、完全性といった整形項を含む複合報酬が、重複のみの目的よりも優れており、安定した改善を可能にすることを示す。
  • 本研究は、RLを用いたテスト時適応を、大規模モデルの再訓練を伴わずに、ドメイン認識型かつユーザー制御可能な生成を実現する実用的な機構として示している。

要約: デコード戦略は、Large Language Model (LLM) の出力品質を大きく左右します。しかし、貪欲法や固定温度/トップ-p デコーディングのような広く用いられるヒューリスティックは静的で、しばしばタスクに依存しないため、スタイルや構造の柔軟性を要する領域において最適でない、あるいは一貫性のない生成品質を招くことがあります。
我々は、デコードを逐次的意思決定として扱い、テスト時にサンプリングパラメータを調整する軽量なポリシーを学習する強化学習ベースのデコーダサンプラーを導入します。これにより、LLMの重みを凍結したままにします。
BookSum、arXiv、WikiHow を含む要約データセットを Granite-3.3-2B および Qwen-2.5-0.5B を用いて評価しました。
我々のポリシーサンプラーは一貫して貪欲法や静的ベースラインを上回り、最大で BookSum(Granite)で +88%、WikiHow(Qwen)で +79% の相対利得を達成します。
報酬のアブレーション実験は、重複のみを最適化する目的が複合報酬と比較して劣ることを示しており、一方、長さ、カバレッジ、繰り返し、完結性といった構造化された整形項は、安定した持続的改善を可能にします。
これらの知見は、デコード時の適応を実現する現実的な仕組みとして強化学習を示しており、巨大モデルを再訓練することなく、ドメインに応じた制御可能な生成を可能にします。