Beyond Log Likelihood: モデル能力の連続体全体にわたる教師ありファインチューニングのための確率ベース目的関数

arXiv cs.CL / 2026/3/30

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、教師ありファインチューニング（SFT）で一般的に用いられる負の対数尤度（NLL）目的関数が、学習後の状態でNLLの「スクラッチから学習する」ことを前提とした最適性仮定が、ノイズのある長い教師データにより破られるため、性能を下回る可能性があると主張する。
代わりに単一の損失関数を提案するのではなく、複数の確率ベースの学習目的関数を体系的に評価し、それらがどのような設定で成功／失敗するかを分析する。
8種類のモデルバックボーン、27のベンチマーク、7つのドメインをカバーする実験により、支配的な要因として「モデル能力の連続体」が示される。そこでは、低確率トークンを下げる（ダウンウェイトする）事前寄りの目的関数が、強いモデルに対してNLLより優れる。
弱いモデルではNLLの方が有効であることが分かる一方、中程度の能力を持つモデルでは、単一の目的関数が一貫して勝つことはない。
理論的な分析により、異なる目的関数が連続体の中で「得意／不得意の立場を入れ替える」仕組みが説明され、モデル能力に応じて目的関数を選択／適応するための指針が提示される。なお、コードはGitHubで公開されている。

日経XTECH

Simon Willison's Blog

Dev.to

Dev.to

Dev.to