要旨: テスト時のアラインメント手法は、大規模言語モデル(LLM)の出力を、推論時に内部表現へ対する軽量な介入を行うことで誘導し、微調整の代替となる有望な手段を提供します。近年、代表的で効果的なアプローチであるRE-Control(Kong et al., 2024)は、LLMの隠れ状態上で学習した外部の価値関数を活用し、勾配に基づく編集によって生成を導くことを提案しました。とはいえ、この手法はアラインメント課題の重要な特性、すなわちそれらが通常、候補となる応答同士の人間の嗜好(好み)を学習する形で定式化される、という点を見落としています。これに対処するため、本論文では嗜好ベースの新しい学習枠組みであるPref-CTRLを提案します。Pref-CTRLは、多目的の価値関数を用いて、嗜好データの構造をより適切に反映します。本手法は、2つのベンチマークデータセットでRE-Controlを上回る性能を示し、さらにドメイン外データセットにおいてより高い汎化性能を示しました。ソースコードは https://github.com/UTS-nlPUG/pref-ctrl で公開しています。
Pref-CTRL:表現編集による嗜好(プレファレンス)駆動LLMアライメント
arXiv cs.CL / 2026/4/28
📰 ニュースDeveloper Stack & InfrastructureModels & Research
要点
- Pref-CTRLは、大規模言語モデル(LLM)の内部表現に対して軽量な介入を行うことで出力を制御する、テスト時アライメント手法であり、モデルの重みをファインチューニングする代替策として位置づけられています。
- 本手法は、RE-Controlが見落としていた「アライメント課題は通常、候補応答間の人間の嗜好に基づいて学習として定式化される」という点を補うため、嗜好構造を取り込むことに焦点を当てています。
- Pref-CTRLは、嗜好データから示唆される目的構造をより適切に反映するために、マルチ目的の価値関数(value function)を用いて表現編集を行います。
- 2つのベンチマークデータセットでRE-Controlよりも優れた結果を示し、さらにドメイン外データでも一般化性能が高いことが報告されています。
- 著者はGitHubでソースコードを公開しており、再現や発展的な実装を可能にしています。



