大規模言語モデルのポストトレーニング:オフポリシー学習とオンポリシー学習を統一的に捉える見取り図

arXiv cs.CL / 2026/4/10

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文はLLMのポストトレーニング手法を概観し、単に目的ラベルの違いだけに基づくのではなく、モデル挙動への介入の仕方に着目した統一的枠組みを提案する。
  • 学習を2つのレジームに整理する。すなわち、外部から与えられる軌跡に基づくオフポリシー学習と、学習者自身が生成するロールアウトに基づくオンポリシー学習であり、その上で、有効なサポート拡張やポリシーの再形成といった役割によって手法をさらに説明する。
  • 著者らは、訓練段階やモデル遷移をまたいで、振る舞いを保存・転移・償却(amortize)する方法を記述するシステムレベルの概念として、行動の統合(behavioral consolidation)を追加する。
  • 枠組みは主要なパラダイム(例:SFT、嗜好最適化、オンポリシーRL、蒸留)をこれらの役割に対応づけ、SFTや嗜好ベースの手法はしばしば異なる行動上のボトルネックに対応すると主張する。
  • 本論文は、ポストトレーニングの改善は次第に、単一の支配的な学習目的よりも、システム/段階設計を連携させることに依存するようになると結論づける。

要旨: 後学習(post-training)は、事前学習済みの大規模言語モデル(LLM)を、整合された(aligned)かつ実運用可能なシステムへと変える上で中核となってきました。最近の進展には、教師あり微調整(SFT)、嗜好(preference)最適化、強化学習(RL)、プロセス監督、検証器(verifier)ガイド手法、蒸留、そして多段パイプラインが含まれます。しかし、これらの手法はしばしば断片的な形で議論され、対象としている行動(behavior)のボトルネックではなく、ラベルや目的ファミリによって整理されがちです。
本調査は、LLMの後学習はモデルの挙動に対する構造化された介入として理解するのが最適である、と論じます。まず、学習の軌跡(trajectory)の出自(provenance)によって分野を整理し、2つの主要な学習体制を定義します。それは、外部から与えられる軌跡に対するオフポリシー学習と、学習者が生成したロールアウトに対するオンポリシー学習です。次に、2つの反復的な役割——有効な支援(support)を拡張し、有用な行動をより到達可能にすること、そしてポリシーの再形(policy reshaping)によって、すでに到達可能な領域内での行動を改善すること——を解釈します。さらに、それと補完的なシステムレベルの役割として、行動の統合(behavioral consolidation)を位置づけます。これは、段階間やモデル遷移をまたいで行動を保持し、移転し、そして償却(amortize)するものです。
この見方は、主要なパラダイムを統一的に読み解くことを可能にします。SFTは、有効な支援の拡張にもポリシーの再形にも用いられ得ます。一方、嗜好ベースの手法は通常、オフポリシーの再形です。オンポリシーRLはしばしば、学習者が生成した状態上での行動を改善しますが、より強いガイダンスの下では、到達しにくい推論経路も到達可能にし得ます。蒸留は、単なる圧縮としてだけでなく、統合(consolidation)として理解するのがよいことが多く、ハイブリッドなパイプラインは、協調した多段構成として現れます。
全体として、この枠組みは後学習におけるボトルネックを診断し、段階構成について考察するのに役立ち、LLMの後学習における進歩が、単一の支配的な目的よりも、協調的なシステム設計にますます依存していくことを示唆します。