KL最適化による微調整で、多ラウンドLLM生成における分布バイアスを制御する

arXiv cs.CL / 2026/4/8

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、LLM評価を固定された正解(ground truth)に対する単発の精度ではなく、反復的なプロンプト提示において所望の確率分布に出力が一致するかどうかという、多ラウンドの分布整合性として捉え直し、問いを立てる。
  • 実験の結果、市販のオフ・ザ・シェルフLLMや、プロンプトエンジニアリング、Direct Preference Optimizationといった一般的なアラインメント手法では、職業文脈における性別・人種・感情などの属性について、分布的性質を確実に制御できないことが示される。
  • 著者らは、Steering Token CalibrationとSemantic Alignmentを組み合わせたKL最適化の微調整手法を提案する。これにより、KLダイバージェンスを通じて潜在するステアリングトークンの確率質量をアンカーしつつ、Kahneman–Tversky型の最適化項によってセマンティックな一貫性を強制するハイブリッド損失を用いる。
  • 6つのデータセットにわたって、この手法はベースラインを大幅に上回ると報告されており、多ラウンド設定における属性生成の分布をより正確に制御できることが示される。

Abstract

現実世界は本質的に確率的ですが、大規模言語モデル(LLM)は主に、固定された正解に対する単発の推論によって評価されています。本研究では、この観点を分布整合へと切り替えます。すなわち、LLMに対してプロンプトを繰り返し与えたとき、所望の目標分布、たとえば現実世界の統計を反映する分布や一様分布に従う出力を生成できるかどうかを評価します。私たちは、職業の文脈における属性(性別・人種・感情)を用いて分布整合を定式化します。実証分析の結果、市販のLLMや、プロンプト・エンジニアリングおよびDirect Preference Optimizationを含む標準的なアライメント手法では、出力分布を確実に制御できないことが明らかになりました。このギャップを埋めるために、Steering Token Calibrationとセマンティック整合を組み合わせた新しい微調整フレームワークを提案します。潜在するsteeringトークンの確率質量を固定するためにKullback-Leiblerダイバージェンスを用い、これらのトークンを意味的に一貫した応答へ結びつけるためにKahneman-Tversky Optimizationを用いる、ハイブリッドな目的関数を導入します。6つの多様なデータセットにわたる実験により、提案手法がベースラインを大きく上回り、属性生成タスクにおいて高精度な分布制御を達成することを示します。