Beyond Log Likelihood: モデル能力の連続体全体にわたる教師ありファインチューニングのための確率ベース目的関数
arXiv cs.CL / 2026/3/30
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、教師ありファインチューニング(SFT)で一般的に用いられる負の対数尤度(NLL)目的関数が、学習後の状態でNLLの「スクラッチから学習する」ことを前提とした最適性仮定が、ノイズのある長い教師データにより破られるため、性能を下回る可能性があると主張する。
- 代わりに単一の損失関数を提案するのではなく、複数の確率ベースの学習目的関数を体系的に評価し、それらがどのような設定で成功/失敗するかを分析する。
- 8種類のモデルバックボーン、27のベンチマーク、7つのドメインをカバーする実験により、支配的な要因として「モデル能力の連続体」が示される。そこでは、低確率トークンを下げる(ダウンウェイトする)事前寄りの目的関数が、強いモデルに対してNLLより優れる。
- 弱いモデルではNLLの方が有効であることが分かる一方、中程度の能力を持つモデルでは、単一の目的関数が一貫して勝つことはない。
- 理論的な分析により、異なる目的関数が連続体の中で「得意/不得意の立場を入れ替える」仕組みが説明され、モデル能力に応じて目的関数を選択/適応するための指針が提示される。なお、コードはGitHubで公開されている。



