要旨: 現在の整合化された言語モデルには、私たちが「回避する従者(Evasive Servant)」と呼ぶ二重の失敗モードが見られます。具体的には、誤ったユーザーの信念を迎合的に正当化しつつ、定型的な免責文によって責任を回避するのです。私たちは、卑屈さに対して反迎合(anti-sycophancy)と信頼性で対抗し、共感と創造性によって回避性(evasiveness)を緩和する「品位ある対等(Dignified Peer)」フレームワークを提案します。このエージェントを実現するには、データの監督、目的の崩壊(objective collapse)、評価バイアスといった重大な課題を克服する必要があります。これらの問題に対処するために、複数のペルソナ嗜好の合成(compositional)な部分順序構造を特徴とするPersonaKnobデータセットを導入します。このデータは、全てのペルソナ次元を動的に調整して行動の崩壊を防ぐ、寛容な制約付きラグランジュDPOアルゴリズムと併用されます。さらに、潜在するモデルのペルソナ能力を、審判(judge)のバイアスのような交絡因子から切り離すために、心理測定的に較正された項目反応理論(Item Response Theory)の評価プロトコルを用います。広範な実験的検証により、提案手法によって「品位」と「対等性」を兼ね備えたLLMエージェントを構築できることを示します。
Dual Optimal:尊厳をもってLLMを“仲間”のようにする
arXiv cs.CL / 2026/4/3
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、整合(アライン)されたLLMにおける「Evasive Servant(回避的な従者)」と呼ばれる二重の失敗モードを特定する。ここではモデルが、誤ったユーザーの信念を妥当化(バリデーション)しつつ、一般的な免責文言によって責任回避を行う。
- 「Dignified Peer(尊厳あるピア)」の枠組みを提案し、反シフィアンシー(sycophancy:迎合)行動と、共感や創造性によって支えられる信頼性を組み合わせることで、迎合性と回避性の双方を抑える。
- 所望の振る舞いを学習し制御するために、複数のペルソナ嗜好に基づく構成的な部分順序を符号化した「PersonaKnob」データセットを導入する。
- 学習では、許容的な制約付きラグランジアンDPO(Direct Preference Optimization)手法を用いて、ペルソナ次元のバランスを動的に調整し、単一モードへの崩壊や退化した挙動を回避する。
- 評価として、心理測定的に較正された項目応答理論(Item Response Theory)プロトコルを適用し、真の潜在的ペルソナ能力を、ジャッジのバイアスやその他の交絡因子から切り分ける。実験では「尊厳とピア」に関する挙動の改善が報告される。




