広告

学ぶために選ぶのか、選ぶために学ぶのか:ビット列生成におけるBest-of-N対教師ありファインチューニング

arXiv stat.ML / 2026/3/31

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、ビット列生成問題を用いて、2つのLLM適応アプローチを理論的に比較する:教師ありファインチューニング(SFT)と、学習された報酬モデルによるBest-of-N(BoN)応答選択。
  • 実現可能な学習(realizable learning)という仮定のもとでは、特に収束率において応答長への依存がより有利であることにより、教師ありファインチューニングがBoNを上回ることが示される。
  • 実現可能性の条件が成り立たない場合は、結果は失敗の具体的なモードに依存する:BoNは、候補数(N)に関数として良い収束率を達成する場合もあれば、応答長に対するスケーリングが改善されることで良い収束率を達成する場合もある。
  • 全体として、本研究はそれぞれの戦略がどのような状況でより好ましい可能性が高いかを位置づけ、訓練目的が真のタスク構造にどの程度適合しているかに関する仮定と、性能差を結びつけている。

要旨: ビット列生成問題をケーススタディとして用い、新しいタスクに適応するために大規模言語モデルを調整する2つの標準的手法を理論的に比較します。1つ目は教師あり微調整(supervised fine-tuning)と呼ばれ、良い生成に基づいて新たな次トークン予測器を訓練します。2つ目の手法はBest-of-Nで、報酬モデルを訓練して、変更されていない基盤モデルによって生成された集合から良い応答を選択します。学習設定が実現可能(realizable)である場合、収束速度における応答長への依存がより良いため、教師あり微調整がBoNを上回ることが分かります。実現可能性が失敗する場合は、失敗のモードに応じて、BoNが n に関してより良い収束率を享受できるか、あるいは応答長への依存がより良い収束率を得られる可能性があります。

広告