AI Navigate

オンラインリファイナーを用いた強化学習ファインチューニングの向上

arXiv cs.LG / 2026/3/20

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、モデルが退化した応答を出力する場合にのみ介入する動的制約を強化学習ファインチューニングに適用する。オンラインリファイナーを用いて、内容を逐語的に保持したまま最小限に訂正した出力を生成する。
  • 基準モデルはオンラインリファイナーとして機能し、逐語的な内容を保持したまま誤りを修正した洗練された出力を生成する。生成された出力は、ファインチューニング済みモデルを教師あり損失で訓練するために用いられる。
  • この機構は、出力品質に基づいて制約の強さを自動的に調整し、訓練中に必要に応じて制約を強化または緩和する。
  • 対話とコード生成の実験は、動的制約がKL正則化や制約なしのベースラインより優れていることを示し、訓練の安定性を維持しつつより高いタスク報酬を達成する。

要旨: 制約は、強化学習のファインチューニング(RFT)を安定化させ、退化した出力を抑制するために不可欠ですが、それらは最適化目的と本質的に衝突します。なぜなら、より強い制約はファインチューニング済みモデルがより良い解を見つける能力を制限するからです。我々はこの緊張を \textit{動的制約} によって解決します。これは、制約は退化した出力が発生した場合にのみ介入すべきだという洞察に基づき、ファインチューニング済みモデルの進化する能力に適応していきます。参照モデルを \textit{オンラインリファイナー} として使用し、ファインチューニング済みモデルの応答を取り込み、正確な内容を逐語的に保持しつつ誤りを修正する最小限の訂正版を生成します。続く監視付きファインチューニングの損失がファインチューニング済みモデルを洗練された出力を生成するように学習させます。この仕組みにより、出力品質に応じて自動的に制約が強化または緩和されます。対話とコード生成の実験は、動的制約がKL正則化および無制約のベースラインの双方を上回り、訓練の安定性を維持しつつ著しく高いタスク報酬を達成することを示しています。

返却形式: {"translated": "翻訳されたHTML"}