オンラインリファイナーを用いた強化学習ファインチューニングの向上

arXiv cs.LG / 2026/3/20

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、モデルが退化した応答を出力する場合にのみ介入する動的制約を強化学習ファインチューニングに適用する。オンラインリファイナーを用いて、内容を逐語的に保持したまま最小限に訂正した出力を生成する。
基準モデルはオンラインリファイナーとして機能し、逐語的な内容を保持したまま誤りを修正した洗練された出力を生成する。生成された出力は、ファインチューニング済みモデルを教師あり損失で訓練するために用いられる。
この機構は、出力品質に基づいて制約の強さを自動的に調整し、訓練中に必要に応じて制約を強化または緩和する。
対話とコード生成の実験は、動的制約がKL正則化や制約なしのベースラインより優れていることを示し、訓練の安定性を維持しつつより高いタスク報酬を達成する。

要旨: 制約は、強化学習のファインチューニング（RFT）を安定化させ、退化した出力を抑制するために不可欠ですが、それらは最適化目的と本質的に衝突します。なぜなら、より強い制約はファインチューニング済みモデルがより良い解を見つける能力を制限するからです。我々はこの緊張を \textit{動的制約} によって解決します。これは、制約は退化した出力が発生した場合にのみ介入すべきだという洞察に基づき、ファインチューニング済みモデルの進化する能力に適応していきます。参照モデルを \textit{オンラインリファイナー} として使用し、ファインチューニング済みモデルの応答を取り込み、正確な内容を逐語的に保持しつつ誤りを修正する最小限の訂正版を生成します。続く監視付きファインチューニングの損失がファインチューニング済みモデルを洗練された出力を生成するように学習させます。この仕組みにより、出力品質に応じて自動的に制約が強化または緩和されます。対話とコード生成の実験は、動的制約がKL正則化および無制約のベースラインの双方を上回り、訓練の安定性を維持しつつ著しく高いタスク報酬を達成することを示しています。

返却形式: {"translated": "翻訳されたHTML"}

半導体FABにLLMを持ち込んだら何が起きるか — ArXiv論文5本を現場目線でぶった斬る

Qiita

エッジコンピューティングとローカル処理への大規模な移行

Dev.to

仕様駆動開発における自己改良エージェント

Dev.to

Week 3: LLMでの構築を始める前に『退屈な』MLを学ぶ理由

Dev.to

三エージェント・プロトコルは移植可能だ。規律は移植不可能だ。

Dev.to

オンラインリファイナーを用いた強化学習ファインチューニングの向上

要点

関連記事

半導体FABにLLMを持ち込んだら何が起きるか — ArXiv論文5本を現場目線でぶった斬る

エッジコンピューティングとローカル処理への大規模な移行

仕様駆動開発における自己改良エージェント

Week 3: LLMでの構築を始める前に『退屈な』MLを学ぶ理由

三エージェント・プロトコルは移植可能だ。規律は移植不可能だ。

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer