要旨: 制約は、強化学習のファインチューニング(RFT)を安定化させ、退化した出力を抑制するために不可欠ですが、それらは最適化目的と本質的に衝突します。なぜなら、より強い制約はファインチューニング済みモデルがより良い解を見つける能力を制限するからです。我々はこの緊張を \textit{動的制約} によって解決します。これは、制約は退化した出力が発生した場合にのみ介入すべきだという洞察に基づき、ファインチューニング済みモデルの進化する能力に適応していきます。参照モデルを \textit{オンラインリファイナー} として使用し、ファインチューニング済みモデルの応答を取り込み、正確な内容を逐語的に保持しつつ誤りを修正する最小限の訂正版を生成します。続く監視付きファインチューニングの損失がファインチューニング済みモデルを洗練された出力を生成するように学習させます。この仕組みにより、出力品質に応じて自動的に制約が強化または緩和されます。対話とコード生成の実験は、動的制約がKL正則化および無制約のベースラインの双方を上回り、訓練の安定性を維持しつつ著しく高いタスク報酬を達成することを示しています。
返却形式: {"translated": "翻訳されたHTML"}