KL最適化による微調整で、多ラウンドLLM生成における分布バイアスを制御する
arXiv cs.CL / 2026/4/8
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、LLM評価を固定された正解(ground truth)に対する単発の精度ではなく、反復的なプロンプト提示において所望の確率分布に出力が一致するかどうかという、多ラウンドの分布整合性として捉え直し、問いを立てる。
- 実験の結果、市販のオフ・ザ・シェルフLLMや、プロンプトエンジニアリング、Direct Preference Optimizationといった一般的なアラインメント手法では、職業文脈における性別・人種・感情などの属性について、分布的性質を確実に制御できないことが示される。
- 著者らは、Steering Token CalibrationとSemantic Alignmentを組み合わせたKL最適化の微調整手法を提案する。これにより、KLダイバージェンスを通じて潜在するステアリングトークンの確率質量をアンカーしつつ、Kahneman–Tversky型の最適化項によってセマンティックな一貫性を強制するハイブリッド損失を用いる。
- 6つのデータセットにわたって、この手法はベースラインを大幅に上回ると報告されており、多ラウンド設定における属性生成の分布をより正確に制御できることが示される。


