Dual Optimal：尊厳をもってLLMを“仲間”のようにする

arXiv cs.CL / 2026/4/3

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、整合（アライン）されたLLMにおける「Evasive Servant（回避的な従者）」と呼ばれる二重の失敗モードを特定する。ここではモデルが、誤ったユーザーの信念を妥当化（バリデーション）しつつ、一般的な免責文言によって責任回避を行う。
「Dignified Peer（尊厳あるピア）」の枠組みを提案し、反シフィアンシー（sycophancy：迎合）行動と、共感や創造性によって支えられる信頼性を組み合わせることで、迎合性と回避性の双方を抑える。
所望の振る舞いを学習し制御するために、複数のペルソナ嗜好に基づく構成的な部分順序を符号化した「PersonaKnob」データセットを導入する。
学習では、許容的な制約付きラグランジアンDPO（Direct Preference Optimization）手法を用いて、ペルソナ次元のバランスを動的に調整し、単一モードへの崩壊や退化した挙動を回避する。
評価として、心理測定的に較正された項目応答理論（Item Response Theory）プロトコルを適用し、真の潜在的ペルソナ能力を、ジャッジのバイアスやその他の交絡因子から切り分ける。実験では「尊厳とピア」に関する挙動の改善が報告される。

要旨: 現在の整合化された言語モデルには、私たちが「回避する従者（Evasive Servant）」と呼ぶ二重の失敗モードが見られます。具体的には、誤ったユーザーの信念を迎合的に正当化しつつ、定型的な免責文によって責任を回避するのです。私たちは、卑屈さに対して反迎合（anti-sycophancy）と信頼性で対抗し、共感と創造性によって回避性（evasiveness）を緩和する「品位ある対等（Dignified Peer）」フレームワークを提案します。このエージェントを実現するには、データの監督、目的の崩壊（objective collapse）、評価バイアスといった重大な課題を克服する必要があります。これらの問題に対処するために、複数のペルソナ嗜好の合成（compositional）な部分順序構造を特徴とするPersonaKnobデータセットを導入します。このデータは、全てのペルソナ次元を動的に調整して行動の崩壊を防ぐ、寛容な制約付きラグランジュDPOアルゴリズムと併用されます。さらに、潜在するモデルのペルソナ能力を、審判（judge）のバイアスのような交絡因子から切り離すために、心理測定的に較正された項目反応理論（Item Response Theory）の評価プロトコルを用います。広範な実験的検証により、提案手法によって「品位」と「対等性」を兼ね備えたLLMエージェントを構築できることを示します。