自律性を損なわないための支援的対話エージェントに向けた、ケア条件付きニューロモデュレーション

arXiv cs.LG / 2026/4/3

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、大規模言語モデル（LLM）の支援／助言エージェントにおいては、単なる一般的な有用性や無害性だけでなく、依存を強める関係性リスク（依存の強化、過度な保護、強制的な誘導など）に対する明示的なアライメントが必要だと主張する。
ケア条件付きニューロモデュレーション（CCN）を提案する。これは状態依存型の制御アプローチであり、ユーザー状態と対話文脈から学習されたスカラー信号を用いて、応答生成と候補選択を条件付けする。
著者らは、自律性を損なわないアライメントを、多目的ユーティリティ問題として形式化し、自律性の支援と有用性を報酬として与える一方、依存と強制を罰する。
不安をあおって安心に依存させること、操作的なケア、過保護、境界の一貫性欠如を扱うベンチマークを構築し、CCN型の候補生成に加えてユーティリティに基づく再ランキングを行うことで、教師あり微調整や選好最適化のベースラインよりも、自律性を損なわないユーティリティが向上することを示す。
パイロット的な人手評価と、現実の感情的支援会話へのゼロショット転移により、自動評価指標と方向性を揃えた結果が得られ、本手法が自律性に配慮した対話制御の実用的な経路になり得ることを示唆する。

概要: 支援的または助言的な役割で導入される大規模言語モデルは、有用性と同時にユーザーの自律性を損なわないように両立する必要があります。しかし、標準的なアラインメント手法は主として有用性と無害性の最適化に焦点を当てており、依存の強化、過度な保護、強制的なガイダンスといった関係性に関するリスクを明示的にモデル化していません。本研究では、ケア条件付けニューロモジュレーション（Care-Conditioned Neuromodulation: CCN）を提案します。CCNは、構造化されたユーザー状態および対話文脈から導出される学習済みのスカラー信号によって、応答生成と候補選択を制御する状態依存型の制御フレームワークです。この設定を、自律性を保全するアラインメント問題として形式化し、自律性の支援と有用性を報いる一方で、依存と強制を罰する効用関数を定義します。さらに、多ターン対話における関係性の失敗モードのベンチマークを構築します。これには、安心（再保証）への依存、操作的なケア、過保護、境界の不整合が含まれます。このベンチマーク上で、ケア条件付けによる候補生成に、効用ベースの再ランキングを組み合わせることで、自律性を保全する効用が、教師あり微調整に対して+0.25、嗜好最適化のベースラインに対して+0.07向上しつつ、同等の支援的性質を維持します。試験的な人手評価と、ゼロショットでの実際の感情的サポート対話への転移により、自動評価指標と方向性が一致することが示されています。これらの結果は、自律性に配慮した対話における多目的アラインメントへの実用的なアプローチとして、状態依存型の制御と効用ベースの選択を組み合わせることが有効であることを示唆しています。