GFT:不偏なグループ優位性と動的係数補正による、模倣から報酬ファインチューニングへの発展

arXiv cs.AI / 2026/4/17

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、従来の教師ありファインチューニング(SFT)を、脆弱な政策勾配最適化の一種として捉えられることを主張し、暗黙の報酬の疎さや逆確率重み付けの不安定さなどの問題を指摘しています。
  • これらの問題が、単一経路への依存、エントロピー崩壊、勾配爆発を引き起こし得て、効率的な知識注入と強い汎化性能の両立を難しくしていることを示します。
  • そこで著者らは、2つの機構を備えた統一型ポストトレーニング手法としてGroup Fine-Tuning(GFT)を提案します。
  • Group Advantage Learningは多様な応答グループを作り、正規化されたコントラスト学習の教師信号で報酬疎性を緩和し、Dynamic Coefficient Rectificationは逆確率重みを適応的に上限制限して学習を安定化します。
  • 実験では、GFTがSFTベース手法を一貫して上回り、後続の強化学習(RL)とよりスムーズに統合できる方策を得られると報告されています。

要旨: 大規模言語モデルは通常、教師あり微調整(SFT)および強化学習(RL)によって事後学習されますが、効率的な知識注入を頑健な汎化と効果的に統一することは依然として困難です。本研究では、SFTを、非常に疎な暗黙の報酬と不安定な逆確率重み付けを伴う、ポリシーグラディエント最適化の特別な場合として解釈できることを示す学習ダイナミクス分析を提示します。これらが同時に単一経路依存、エントロピー崩壊、および勾配爆発を引き起こします。この診断に動機づけられ、Group Fine-Tuning(GFT)という統一的な事後学習フレームワークを提案します。GFTは、2つのメカニズムにより、これらの内在的な制約を解決します。1つ目はGroup Advantage Learningであり、多様な応答グループを構築し、報酬の疎さを緩和するために正規化された対比的な教師信号を導出します。2つ目はDynamic Coefficient Rectificationであり、逆確率重みを適応的に上限で抑えて最適化を安定化しつつ、効率的な知識注入は維持します。実験結果は、GFTが一貫してSFTベースの手法を上回り、続くRL学習との統合がより滑らかに行われる方策をもたらすことを示しています。